In this assingment, we implement two agents: A simple reflex agent, and a model based reflex agent. The former acts solely on the input it is perceiving from the environment, while the model based reflex agent creates an inner model of its environment, remembering important things that helps it take better decisions.
These two agents will act on two different environments, a partially and a fully observable one. The first environment will allow the agents to see only the tiles next to them, while the second environment will show the content of all the tiles at any gien moment. In this regard, the model based agent has a big advantage over the simple reflex agent, as it will be able to remember the items from the tiles it has observed, unlike the simple reflex agent which will not be able to recall the state of the world, and therefore, will not know what is there in the tiles already explored in the partially obserbable environment. For the fully observable environment, we expect the behaviour to be quite similar, as the only difference will be that the model based environment will be able to avoid re visiting tiles, which is an action that is penalised, but not severely, specially if the agent then visits a tile containing gold.
from agents import Environment, Thing, Agent, Direction, SimpleReflexAgentProgram
from random import randrange, seed
import matplotlib.pyplot as plt
#import matplotlib
from matplotlib.pyplot import figure
class GridEnvironment(Environment):
def __init__(self, things, agent, fully_observable = True, width = 5, height = 5):
super().__init__()
self.fully_observable = fully_observable
self.step_num = 0
self.width = width
self.score_history=[]
self.agent_position_history = []
self.height = height
self.x_start, self.y_start = (0, 0)
self.x_end, self.y_end = (self.width - 1, self.height - 1)
for thing in things: self.things.append(thing)
self.things.append(agent)
self.agent = agent
self.agent.performance = 100
self.agent_visited_cells = [agent.location]
if self.agent.internal_state != None:
self.agent.internal_state = self.percept()["things"]
if not self.fully_observable and self.agent.visited_cells != None:
known_cells = []
for visited_cell in self.agent.visited_cells:
x, y = self.agent.location
known_cells = self.agent.known_cells
if (x, y) not in known_cells and self.is_inbounds((x, y)): known_cells.append((x, y))
if (x - 1, y) not in known_cells and self.is_inbounds((x - 1, y)): known_cells.append((x - 1, y))
if (x + 1, y) not in known_cells and self.is_inbounds((x + 1, y)): known_cells.append((x + 1, y))
if (x, y - 1) not in known_cells and self.is_inbounds((x, y - 1)): known_cells.append((x, y - 1))
if (x, y + 1) not in known_cells and self.is_inbounds((x, y + 1)): known_cells.append((x, y + 1))
if (x - 1, y - 1) not in known_cells and self.is_inbounds((x - 1, y - 1)): known_cells.append((x - 1, y - 1))
if (x - 1, y + 1) not in known_cells and self.is_inbounds((x - 1, y + 1)): known_cells.append((x - 1, y + 1))
if (x + 1, y - 1) not in known_cells and self.is_inbounds((x + 1, y - 1)): known_cells.append((x + 1, y - 1))
if (x + 1, y + 1) not in known_cells and self.is_inbounds((x + 1, y + 1)): known_cells.append((x + 1, y + 1))
self.agent.known_cells = known_cells
elif self.agent.visited_cells != None:
known_cells = []
for y in range(self.height):
for x in range(self.width):
known_cells.append((x,y))
self.agent.known_cells = known_cells
print("<STARTING>")
self.print_environment_state()
self.print_percept(self.percept())
self.print_internal_state()
def percept(self):
percept = {}
percept["location"] = self.agent.location
percept["direction"] = self.agent.direction
percept["things"] = self.things if self.fully_observable else [thing for thing in self.things if (thing.location[0] >= self.agent.location[0] - 1 and thing.location[0] <= self.agent.location[0] + 1) and (thing.location[1] >= self.agent.location[1] - 1 and thing.location[1] <= self.agent.location[1] + 1)]
return percept
def is_done(self):
no_gold = not any(isinstance(thing, Gold) for thing in self.things)
dead_agent = not self.agent.is_alive()
return dead_agent or no_gold
def step(self):
if self.is_done(): return
self.step_num += 1
action = self.agent.program(self.percept())
self.execute_action(action)
print("<STEP {0}>".format(self.step_num))
print("SELECTED ACTION: {0}".format(action.capitalize()))
self.print_environment_state()
self.print_percept(self.percept())
self.print_internal_state()
def execute_action(self, action):
if action == "turn":
self.agent.turn()
self.agent.performance -= 1
elif action == "advance":
self.agent.performance -=1
new_location = self.agent.direction.move_forward(self.agent.location)
outside_grid = not self.is_inbounds(new_location)
if not outside_grid: self.agent.advance()
if self.agent.location in self.agent_visited_cells: self.agent.performance -=2
else: self.agent_visited_cells.append(self.agent.location)
if self.agent.internal_state != None:
things = self.percept()["things"]
internal_state = things
things_locations = [thing.location for thing in things]
for thing in self.agent.internal_state:
if thing.location not in things_locations:
internal_state.append(thing)
self.agent.internal_state = internal_state
if self.agent.known_cells != None:
x, y = self.agent.location
known_cells = self.agent.known_cells
if (x, y) not in known_cells and self.is_inbounds((x, y)): known_cells.append((x, y))
if (x - 1, y) not in known_cells and self.is_inbounds((x - 1, y)): known_cells.append((x - 1, y))
if (x + 1, y) not in known_cells and self.is_inbounds((x + 1, y)): known_cells.append((x + 1, y))
if (x, y - 1) not in known_cells and self.is_inbounds((x, y - 1)): known_cells.append((x, y - 1))
if (x, y + 1) not in known_cells and self.is_inbounds((x, y + 1)): known_cells.append((x, y + 1))
if (x - 1, y - 1) not in known_cells and self.is_inbounds((x - 1, y - 1)): known_cells.append((x - 1, y - 1))
if (x - 1, y + 1) not in known_cells and self.is_inbounds((x - 1, y + 1)): known_cells.append((x - 1, y + 1))
if (x + 1, y - 1) not in known_cells and self.is_inbounds((x + 1, y - 1)): known_cells.append((x + 1, y - 1))
if (x + 1, y + 1) not in known_cells and self.is_inbounds((x + 1, y + 1)): known_cells.append((x + 1, y + 1))
self.agent.known_cells = known_cells
elif action == "stay":
pass
golds = self.list_things_at(self.agent.location, tclass = Gold)
if len(golds) != 0:
if self.agent.dig(golds[0]):
# if self.agent.internal_state != None: self.agent.internal_state.remove(golds[0])
self.delete_thing(golds[0])
self.agent.performance += 10
traps = self.list_things_at(self.agent.location, tclass = Trap)
if len(traps) != 0:
if self.agent.get_trapped(traps[0]):
# if self.agent.internal_state != None: self.agent.internal_state.remove(traps[0])
self.delete_thing(traps[0])
self.agent.performance -= 5
self.agent_position_history.append(self.agent.location)
def is_inbounds(self, location):
x, y = location
return not (x < self.x_start or x > self.x_end or y < self.y_start or y > self.y_end)
def print_environment_state(self):
print("Agent state: ({0}, {1}, {2})".format(self.agent.location[0], self.agent.location[1], self.agent.direction.direction.capitalize()))
state_msg = ""
for y in range(self.height + 2):
for x in range(self.width + 1):
cell = (x - 1, y - 2)
if y == 0: state_msg += " {0} ".format(cell[0]) if x != 0 else " "
elif y == 1: state_msg += " (A G T)" if x != 0 else " "
elif x == 0: state_msg += str(cell[1])
else:
A = "V" if cell in self.agent_visited_cells else "-"
G = str(len(self.list_things_at(cell, tclass = Gold))) if self.some_things_at(cell, tclass = Gold) else "-"
T = str(len(self.list_things_at(cell, tclass = Trap))) if self.some_things_at(cell, tclass = Trap) else "-"
state_msg += " ({0} {1} {2})".format(A, G, T)
if x == self.width and y != self.height + 1: state_msg += "\n"
print(state_msg)
print("Agent performance: {0}".format(self.agent.performance))
def print_percept(self, percept):
self.score_history.append(self.agent.performance)
if not self.fully_observable:
x , y = percept["location"]
x_min = x - 1 if self.is_inbounds((x - 1, y)) else x
x_max = x + 1 if self.is_inbounds((x + 1, y)) else x
y_min = y - 1 if self.is_inbounds((x, y - 1)) else y
y_max = y + 1 if self.is_inbounds((x, y + 1)) else y
else:
x_min = 0
x_max = self.width - 1
y_min = 0
y_max = self.height - 1
percept_msg = ""
for y in range(y_max + 3 - y_min):
for x in range(x_max + 2 - x_min):
cell = (x + x_min - 1, y + y_min - 2)
if y == 0: percept_msg += " {0} ".format(cell[0]) if x != 0 else " "
elif y == 1: percept_msg += " (A G T)" if x != 0 else " "
elif x == 0: percept_msg += str(cell[1])
else:
A = percept["direction"].direction.capitalize()[0] if percept["location"] == cell else "-"
G = str(len([thing for thing in percept["things"] if thing.location == cell and isinstance(thing, Gold)]))
T = str(len([thing for thing in percept["things"] if thing.location == cell and isinstance(thing, Trap)]))
percept_msg += " ({0} {1} {2})".format(A, G if G != "0" else "-", T if T != "0" else "-")
if x == x_max - x_min + 1 and y != y_max - y_min + 2: percept_msg += "\n"
print("PERCEPT")
print(percept_msg)
def print_internal_state(self):
known_cells = []
visited_cells = [self.agent.location] if self.agent.visited_cells == None else self.agent.visited_cells
internal_state = self.percept()["things"] if self.agent.visited_cells == None else self.agent.internal_state
if not self.fully_observable:
for visited_cell in visited_cells:
(x, y) = visited_cell
if (x, y) not in known_cells and self.is_inbounds((x, y)): known_cells.append((x, y))
if (x - 1, y) not in known_cells and self.is_inbounds((x - 1, y)): known_cells.append((x - 1, y))
if (x + 1, y) not in known_cells and self.is_inbounds((x + 1, y)): known_cells.append((x + 1, y))
if (x, y - 1) not in known_cells and self.is_inbounds((x, y - 1)): known_cells.append((x, y - 1))
if (x, y + 1) not in known_cells and self.is_inbounds((x, y + 1)): known_cells.append((x, y + 1))
if (x - 1, y - 1) not in known_cells and self.is_inbounds((x - 1, y - 1)): known_cells.append((x - 1, y - 1))
if (x - 1, y + 1) not in known_cells and self.is_inbounds((x - 1, y + 1)): known_cells.append((x - 1, y + 1))
if (x + 1, y - 1) not in known_cells and self.is_inbounds((x + 1, y - 1)): known_cells.append((x + 1, y - 1))
if (x + 1, y + 1) not in known_cells and self.is_inbounds((x + 1, y + 1)): known_cells.append((x + 1, y + 1))
else:
for y in range(self.height):
for x in range(self.width):
known_cells.append((x,y))
state_msg = ""
for y in range(self.height + 2):
for x in range(self.width + 1):
cell = (x - 1, y - 2)
if y == 0: state_msg += " {0} ".format(cell[0]) if x != 0 else " "
elif y == 1: state_msg += " (A G T)" if x != 0 else " "
elif x == 0: state_msg += str(cell[1])
else:
A = "?" if cell not in known_cells else "V" if cell in visited_cells else "-"
G = "?" if cell not in known_cells else str(len([thing for thing in internal_state if isinstance(thing, Gold) and thing.location == cell]))
T = "?" if cell not in known_cells else str(len([thing for thing in internal_state if isinstance(thing, Trap) and thing.location == cell]))
state_msg += " ({0} {1} {2})".format(A, G if G != "0" else "-", T if T != "0" else "-")
if x == self.width and y != self.height + 1: state_msg += "\n"
print("AGENT'S INTERNAL STATE")
print(state_msg)
class Gold(Thing):
def __init__(self, location):
self.location = location
class Trap(Thing):
def __init__(self, location):
self.location = location
class GoldDiggerAgent():
def __init__(self, location, direction):
self.location = location
self.direction = direction
self.visited_cells = None
self.internal_state = None
self.known_cells = None
def turn(self):
self.direction += Direction.R
def advance(self):
self.location = self.direction.move_forward(self.location)
def dig(self, thing):
if isinstance(thing, Gold):
return True
return False
def get_trapped(self, thing):
if isinstance(thing, Trap):
return True
return False
def is_alive(self):
return self.performance > 0
class ReflexGoldDiggerAgent(GoldDiggerAgent):
def __init__(self, location, direction):
super().__init__(location,direction)
def program(self, percept):
location = percept["location"]
direction = percept["direction"]
things = percept["things"]
things_in_front = []
front_location = location
for i in range(4):
front_location = direction.move_forward(front_location)
things_in_front += [thing for thing in things if thing.location == front_location]
things_to_the_right = []
right_location = location
for i in range(4):
right_location = (direction + Direction.R).move_forward(right_location)
things_to_the_right += [thing for thing in things if thing.location == right_location]
things_behind = []
back_location = location
for i in range(4):
back_location = (direction + Direction.R + Direction.R).move_forward(back_location)
things_behind += [thing for thing in things if thing.location == back_location]
things_to_the_left = []
left_location = location
for i in range(4):
left_location = (direction + Direction.L).move_forward(left_location)
things_to_the_left += [thing for thing in things if thing.location == left_location]
front_location = direction.move_forward(location)
right_location = (direction + Direction.R).move_forward(location)
left_location = (direction + Direction.L).move_forward(location)
back_location = (direction + Direction.R + Direction.R).move_forward(location)
things_in_cell = [thing for thing in things if thing.location == location]
things_directly_in_front = [thing for thing in things if thing.location == front_location]
things_directly_around = [thing for thing in things if thing.location == right_location or thing.location == left_location or thing.location == back_location]
num_golds_in_front = len([thing for thing in things_in_front if isinstance(thing, Gold)])
num_traps_in_front = len([thing for thing in things_in_front if isinstance(thing, Trap)])
num_golds_to_the_right = len([thing for thing in things_to_the_right if isinstance(thing, Gold)])
num_traps_to_the_right = len([thing for thing in things_to_the_right if isinstance(thing, Trap)])
num_golds_behind = len([thing for thing in things_behind if isinstance(thing, Gold)])
num_traps_behind = len([thing for thing in things_behind if isinstance(thing, Trap)])
num_golds_to_the_left = len([thing for thing in things_to_the_left if isinstance(thing, Gold)])
num_traps_to_the_left = len([thing for thing in things_to_the_left if isinstance(thing, Trap)])
options = []
options.append(num_golds_in_front - num_traps_in_front if num_golds_in_front > 0 else -1000)
options.append(num_golds_to_the_right - num_traps_to_the_right if num_golds_to_the_right > 0 else -1000)
options.append(num_golds_behind - num_traps_behind if num_golds_behind > 0 else -1000)
options.append(num_golds_to_the_left - num_traps_to_the_left if num_golds_to_the_left > 0 else -1000)
better_option = options.index(max(options))
if front_location[0] < 0 or front_location[0] > 4 or front_location[1] < 0 or front_location[1] > 4:
return "turn"
if len(things_in_cell):
if any(thing for thing in things_in_cell if isinstance(thing, Gold)):
return "advance"
elif any(thing for thing in things_in_cell if isinstance(thing, Trap)):
return "advance"
if len(things_directly_in_front):
if any(thing for thing in things_directly_in_front if isinstance(thing, Gold)):
return "advance"
elif any(thing for thing in things_directly_in_front if isinstance(thing, Trap)):
return "turn" if num_traps_in_front > num_golds_in_front else "advance"
if len(things_directly_around):
if any(thing for thing in things_directly_around if isinstance(thing, Gold)):
if better_option != 0:
return "turn"
if any(thing for thing in things_directly_around if isinstance(thing, Trap)):
return "advance"
if(better_option == 0):
if len(things_in_front):
return "advance"
elif(better_option == 1):
if len(things_to_the_right):
return "turn"
elif(better_option == 2):
if len(things_behind):
return "turn"
elif(better_option == 3):
if len(things_to_the_left):
return "turn"
return "advance" if randrange(3) < 2 else "turn"
class ModelGoldDiggerAgent(GoldDiggerAgent):
def __init__(self, location, direction):
super().__init__(location,direction)
self.model = {"gold": 10, "advance": -1, "turn": -1, "trap": -5, "visited": -2}
self.visited_cells = [location]
self.internal_state = []
self.known_cells = []
def advance(self):
super().advance()
self.visited_cells.append(self.location)
def program(self, percept):
things = percept["things"]
internal_state = things
things_locations = [thing.location for thing in things]
for thing in self.internal_state:
if thing.location not in things_locations:
internal_state.append(thing)
self.internal_state = internal_state
location = percept["location"]
direction = percept["direction"]
things = self.internal_state
things_in_front = []
front_location = location
for i in range(4):
front_location = direction.move_forward(front_location)
things_in_front += [thing for thing in things if thing.location == front_location]
things_to_the_right = []
right_location = location
for i in range(4):
right_location = (direction + Direction.R).move_forward(right_location)
things_to_the_right += [thing for thing in things if thing.location == right_location]
things_behind = []
back_location = location
for i in range(4):
back_location = (direction + Direction.R + Direction.R).move_forward(back_location)
things_behind += [thing for thing in things if thing.location == back_location]
things_to_the_left = []
left_location = location
for i in range(4):
left_location = (direction + Direction.L).move_forward(left_location)
things_to_the_left += [thing for thing in things if thing.location == left_location]
front_location = direction.move_forward(location)
right_location = (direction + Direction.R).move_forward(location)
left_location = (direction + Direction.L).move_forward(location)
back_location = (direction + Direction.R + Direction.R).move_forward(location)
things_in_cell = [thing for thing in things if thing.location == location]
things_directly_in_front = [thing for thing in things if thing.location == front_location]
things_directly_around = [thing for thing in things if thing.location == right_location or thing.location == left_location or thing.location == back_location]
front_move_costs = []
iterator = direction.move_forward(location)
cost = 0
while iterator in self.known_cells:
cost += self.model["advance"]
if any(thing for thing in things if isinstance(thing, Gold) and thing.location == iterator): cost += 10 * self.model["gold"]
if any(thing for thing in things if isinstance(thing, Trap) and thing.location == iterator): cost += self.model["trap"]
if iterator in self.visited_cells: cost += self.model["visited"]
front_move_costs.append(cost)
iterator = direction.move_forward(iterator)
best_front_move = -1000 if front_move_costs == [] else max(front_move_costs)
right_move_costs = []
iterator = (direction + Direction.R).move_forward(location)
cost = self.model["turn"]
while iterator in self.known_cells:
cost += self.model["advance"]
if any(thing for thing in things if isinstance(thing, Gold) and thing.location == iterator): cost += 10 * self.model["gold"]
if any(thing for thing in things if isinstance(thing, Trap) and thing.location == iterator): cost += self.model["trap"]
if iterator in self.visited_cells: cost += self.model["visited"]
right_move_costs.append(cost)
iterator = (direction + Direction.R).move_forward(iterator)
best_right_move = -1000 if right_move_costs == [] else max(right_move_costs)
back_move_costs = []
iterator = (direction + Direction.R + Direction.R).move_forward(location)
cost = 2 * self.model["turn"]
while iterator in self.known_cells:
cost += self.model["advance"]
if any(thing for thing in things if isinstance(thing, Gold) and thing.location == iterator): cost += 10 * self.model["gold"]
if any(thing for thing in things if isinstance(thing, Trap) and thing.location == iterator): cost += self.model["trap"]
if iterator in self.visited_cells: cost += self.model["visited"]
back_move_costs.append(cost)
iterator = (direction + Direction.R + Direction.R).move_forward(iterator)
best_back_move = -1000 if back_move_costs == [] else max(back_move_costs)
left_move_costs = []
iterator = (direction + Direction.L).move_forward(location)
cost = 3 * self.model["turn"]
while iterator in self.known_cells:
cost += self.model["advance"]
if any(thing for thing in things if isinstance(thing, Gold) and thing.location == iterator): cost += 10 * self.model["gold"]
if any(thing for thing in things if isinstance(thing, Trap) and thing.location == iterator): cost += self.model["trap"]
if iterator in self.visited_cells: cost += self.model["visited"]
left_move_costs.append(cost)
iterator = (direction + Direction.L).move_forward(iterator)
best_left_move = -1000 if left_move_costs == [] else max(left_move_costs)
options = [best_front_move, best_right_move, best_back_move, best_left_move]
better_option = options.index(max(options))
if front_location[0] < 0 or front_location[0] > 4 or front_location[1] < 0 or front_location[1] > 4:
return "turn"
if len(things_in_cell):
if any(thing for thing in things_in_cell if isinstance(thing, Gold)):
return "stay"
elif any(thing for thing in things_in_cell if isinstance(thing, Trap)):
return "advance"
if any(thing for thing in things_directly_in_front if isinstance(thing, Gold)):
return "advance"
if any(thing for thing in things_directly_around if isinstance(thing, Gold)):
return "turn"
if better_option != 0:
return "turn"
else:
return "advance"
return "advance"
width = 5
height = 5
directions = [Direction.U, Direction.R, Direction.D, Direction.L]
total_golds = 5
total_traps = 5
things = []
for i in range(total_golds):
x = randrange(width)
y = randrange(height)
things.append(Gold((x,y)))
while total_traps > 0:
total_traps -= 1
x = randrange(width)
y = randrange(height)
things.append(Trap((x,y)))
agent_x = randrange(width)
agent_y = randrange(height)
agent_dir = directions[randrange(4)]
n = randrange(1000)
print(n)
seed(n)
361
agent = ReflexGoldDiggerAgent((agent_x, agent_y), Direction(agent_dir))
environment = GridEnvironment(things = things, agent = agent, fully_observable = False, width = width, height = height)
environment.run()
nonobservable_reflex_score = environment.score_history
nonobservable_reflex_history = environment.agent_position_history
<STARTING>
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 100
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (U - -) (- - 1)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 2) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 99
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - -)
2 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 98
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (R - -) (- - -)
2 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 97
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- - -)
2 (- - -) (- - 1) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - 1) (- 2 -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 96
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -)
1 (- - -) (R - -) (- - -)
2 (- - 1) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - 1) (- 2 -) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 95
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -)
1 (- - -) (D - -) (- - -)
2 (- - 1) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - 1) (- 2 -) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - 1) (V 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 104
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 1) (D 1 -) (- - -)
3 (- - 2) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (- - 1) (V 1 -) (- - -) (? ? ?)
3 (? ? ?) (- - 2) (- - -) (- 1 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - 1) (V 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 103
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - 1) (- 1 -) (- - -)
3 (- - 2) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - 1) (- 1 -) (- - -) (? ? ?)
3 (? ? ?) (- - 2) (V - -) (- 1 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - 1) (V 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 102
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - 1) (- 1 -) (- - -)
3 (- - 2) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - 1) (- 1 -) (- - -) (? ? ?)
3 (? ? ?) (- - 2) (V - -) (- 1 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - 1) (V 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 101
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - 1) (- 1 -) (- - -)
3 (- - 2) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - 1) (- 1 -) (- - -) (? ? ?)
3 (? ? ?) (- - 2) (V - -) (- 1 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 108
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 1) (U - -) (- - -)
3 (- - 2) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (- - 1) (V - -) (- - -) (? ? ?)
3 (? ? ?) (- - 2) (- - -) (- 1 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 105
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -)
1 (- - -) (U - -) (- - -)
2 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - 1) (- - -) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 104
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -)
1 (- - -) (R - -) (- - -)
2 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - 1) (- - -) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (V - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 103
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (R - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (V - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 102
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (V - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 101
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (V - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 100
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (V - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 109
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (V - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 108
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (V - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 107
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (V - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 106
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 105
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (- - 1) (V - -) (- - -) (V - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 104
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - -) (D - -)
3 (- 1 -) (- 1 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- 1 1)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (- - 1) (V - -) (- - -) (V - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 108
PERCEPT
3 4
(A G T) (A G T)
2 (- - -) (- - -)
3 (- 1 -) (D - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (- - 1) (V - -) (- - -) (V - -)
3 (- - -) (- - 2) (V - -) (- 1 -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 107
PERCEPT
3 4
(A G T) (A G T)
2 (- - -) (- - -)
3 (- 1 -) (L - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (- - 1) (V - -) (- - -) (V - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 116
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
agent = ModelGoldDiggerAgent((agent_x, agent_y), Direction(agent_dir))
environment = GridEnvironment(things = things, agent = agent, fully_observable = False, width = width, height = height)
environment.run()
nonobservable_model_score = environment.score_history
nonobservable_model_history = environment.agent_position_history
<STARTING>
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 100
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (U - -) (- - 1)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 2) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 99
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - -)
2 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 2) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 98
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 2) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 97
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 2) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 96
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - -) (? ? ?) (? ? ?)
1 (V - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 2) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 95
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- 1 -) (? ? ?)
1 (V - -) (- - -) (- - -) (- - -) (? ? ?)
2 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 2) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 104
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 2) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 103
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 2) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 102
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 2) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 101
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (? ? ?) (- - -) (- - -)
3 (- - -) (- - 2) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (V - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 100
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - -) (D - -)
3 (- 1 -) (- 1 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (? ? ?) (- - -) (V - -)
3 (- - -) (- - 2) (? ? ?) (- 1 -) (- 1 1)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (V - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 104
PERCEPT
3 4
(A G T) (A G T)
2 (- - -) (- - -)
3 (- 1 -) (D - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (? ? ?) (- - -) (V - -)
3 (- - -) (- - 2) (? ? ?) (- 1 -) (V 1 1)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (V - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 103
PERCEPT
3 4
(A G T) (A G T)
2 (- - -) (- - -)
3 (- 1 -) (L - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (? ? ?) (- - -) (V - -)
3 (- - -) (- - 2) (? ? ?) (- 1 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (V - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 112
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 2 -) (- - -) (- - -)
3 (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (V - -)
3 (- - -) (- - 2) (- - -) (V 1 -) (V - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (V - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 111
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - 1) (- 2 -) (- - -)
3 (- - 2) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (V - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (? ? ?) (- - -) (- - -) (- - -) (- - -)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (V - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 110
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - 1) (- 2 -) (- - -)
3 (- - 2) (U - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (V - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (? ? ?) (- - -) (- - -) (- - -) (- - -)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (V 1 -) (- - -) (V - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 119
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 1) (U 1 -) (- - -)
3 (- - 2) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (V 2 -) (- - -) (V - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (? ? ?) (- - -) (- - -) (- - -) (- - -)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (V - -) (- - -) (V - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 129
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 1) (U - -) (- - -)
3 (- - 2) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - -) (- - -) (- - -) (V - -)
2 (V - -) (- - 1) (V 1 -) (- - -) (V - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (? ? ?) (- - -) (- - -) (- - -) (- - -)
agent = ReflexGoldDiggerAgent((agent_x, agent_y), Direction(agent_dir))
environment = GridEnvironment(things = things, agent = agent, fully_observable = True, width = width, height = height)
environment.run()
observable_reflex_score = environment.score_history
observable_reflex_history = environment.agent_position_history
<STARTING>
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (U - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (U - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- 1 -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (D - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (D - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (D - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (L - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (U - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (R - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (R - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (D - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (L - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (L - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (L - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (U - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (V - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (- - 1) (V 1 -) (V - -) (- - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (U 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (V 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (V - -) (V - -) (- - -)
2 (V - -) (- - 1) (V 1 -) (V - -) (- - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (U - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (V - -) (V - -) (- - -)
2 (V - -) (- - 1) (V 1 -) (V - -) (- - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (R - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (V - -) (V - -) (- - -)
2 (V - -) (- - 1) (V 1 -) (V - -) (- - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (D - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - -) (V - -) (V - -) (- - -)
2 (V - -) (- - 1) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (V - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (D - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
agent = ModelGoldDiggerAgent((agent_x, agent_y), Direction(agent_dir))
environment = GridEnvironment(things = things, agent = agent, fully_observable = True, width = width, height = height)
environment.run()
observable_model_score = environment.score_history
observable_model_history = environment.agent_position_history
<STARTING>
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (U - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (R - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (R - -) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V 1 -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 4>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (R - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (D - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (- 1 -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (D - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (L - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (U - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (R - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (- 1 1)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (R - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (D - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (V - -)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (- - -) (V - -)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (V - -) (V - -)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (V - -) (V - -)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (U - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (V - -) (V - -)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (U - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (V - -) (V - -)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (U - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (V - -) (V - -)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - 1) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - -) (- - -) (- - -) (V - -) (- - -)
2 (V - -) (V - -) (V - -) (V - -) (- - -)
3 (- - -) (- - 2) (- - -) (V - -) (V - -)
4 (- - 1) (- - -) (- - -) (V - -) (V - -)
figure(num=None, figsize=(10, 6), dpi=80, facecolor='w', edgecolor='k')
plt.plot(observable_model_score, label = 'O model_based')
plt.plot(observable_reflex_score, label = 'O single reflex')
plt.plot(nonobservable_reflex_score, label = 'N single reflex')
plt.plot(nonobservable_model_score, label = 'N model based')
plt.xlabel('Turns')
plt.ylabel('Performance')
plt.legend()
plt.show()
def plot_trajectory(history, ax, text):
size = 2000
iterator = 1
norms = []
colors = []
ln = len(history)
for element in history:
#size = -9990/(len(environment.agent_position_history)+1)*iterator +10000
s_norm =iterator/ln
#print(iterator/ln)
#print(s_norm)
norms.append(s_norm)
colors.append([s_norm, s_norm, s_norm])
iterator +=1
colourmap = matplotlib.colors.ListedColormap(colors)
norm_full = matplotlib.colors.Normalize(vmin=0, vmax=ln)
iterator = 1
for element in history:
ax.scatter(element[1], element[0], s = size, c=ln-iterator, cmap = 'plasma', norm = norm_full, linewidths = 1, edgecolors = 'black')
ax.set_title(text)
size *= 0.9
iterator +=1
fig, ax = plt.subplots(2,2)
plot_trajectory(nonobservable_reflex_history, ax[0,0],'Non observable env. simple reflex agent')
plot_trajectory(nonobservable_model_history, ax[0,1], 'Non observable env. model based agent')
plot_trajectory(observable_reflex_history, ax[1,0], 'Observable env. simple reflex agent')
plot_trajectory(observable_model_history, ax[1,1], 'observable env. model baed agent')
fig.set_size_inches(18.5, 10.5)
fig.savefig('roads.jpg', dpi=200)
def run_experiment(n_gold, n_traps):
width = 5
height = 5
directions = [Direction.U, Direction.R, Direction.D, Direction.L]
total_golds = n_gold
total_traps = n_traps
things = []
for i in range(total_golds):
x = randrange(width)
y = randrange(height)
things.append(Gold((x,y)))
while total_traps > 0:
total_traps -= 1
x = randrange(width)
y = randrange(height)
things.append(Trap((x,y)))
agent_x = randrange(width)
agent_y = randrange(height)
agent_dir = directions[randrange(4)]
n = randrange(1000)
print(n)
seed(n)
agent = ReflexGoldDiggerAgent((agent_x, agent_y), Direction(agent_dir))
environment = GridEnvironment(things = things, agent = agent, fully_observable = False, width = width, height = height)
environment.run()
nonobservable_reflex_score = environment.score_history
agent = ModelGoldDiggerAgent((agent_x, agent_y), Direction(agent_dir))
environment = GridEnvironment(things = things, agent = agent, fully_observable = False, width = width, height = height)
environment.run()
nonobservable_model_score = environment.score_history
agent = ReflexGoldDiggerAgent((agent_x, agent_y), Direction(agent_dir))
environment = GridEnvironment(things = things, agent = agent, fully_observable = True, width = width, height = height)
environment.run()
observable_reflex_score = environment.score_history
agent = ModelGoldDiggerAgent((agent_x, agent_y), Direction(agent_dir))
environment = GridEnvironment(things = things, agent = agent, fully_observable = True, width = width, height = height)
environment.run()
observable_model_score = environment.score_history
return([nonobservable_reflex_score, nonobservable_model_score, observable_reflex_score, observable_model_score])
def plot_experiment(pro_array):
plt.plot(pro_array[3], label = 'O model_based')
plt.plot(pro_array[2], label = 'O single reflex')
plt.plot(pro_array[0], label = 'N single reflex')
plt.plot(pro_array[1], label = 'N model based')
plt.xlabel('Turns')
plt.ylabel('Performance')
plt.legend()
plt.show()
plot_experiment(array5)
array5 = run_experiment(5, 5)
array10 = run_experiment(10, 10)
array100 = run_experiment(100, 100)
array500 = run_experiment(500, 500)
30
<STARTING>
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 100
PERCEPT
0 1
(A G T) (A G T)
0 (D - 2) (- - -)
1 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 99
PERCEPT
0 1
(A G T) (A G T)
0 (- - 2) (- - -)
1 (D - -) (- 1 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 98
PERCEPT
0 1
(A G T) (A G T)
0 (- - 2) (- - -)
1 (L - -) (- 1 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 97
PERCEPT
0 1
(A G T) (A G T)
0 (- - 2) (- - -)
1 (U - -) (- 1 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 96
PERCEPT
0 1
(A G T) (A G T)
0 (- - 2) (- - -)
1 (R - -) (- 1 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 105
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -)
1 (- - -) (R - -) (- 1 -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- 1 -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 114
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -)
1 (- - -) (R - -) (- - 1)
2 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - 1) (? ? ?)
2 (? ? ?) (- - -) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 113
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -)
1 (- - -) (D - -) (- - 1)
2 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - 1) (? ? ?)
2 (? ? ?) (- - -) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 112
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -)
1 (- - -) (L - -) (- - 1)
2 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - 1) (? ? ?)
2 (? ? ?) (- - -) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 109
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 108
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 107
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 2) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 106
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 2) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 105
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -)
1 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- 1 -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - 1) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 114
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 113
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 112
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 111
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (L - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 108
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -)
1 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 107
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 106
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 103
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 102
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 101
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (L - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 98
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -)
1 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 95
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -)
1 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - 1) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 92
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 2) (L - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 91
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 2) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 90
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 2) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 87
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - 1) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 84
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 81
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 80
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 79
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - 1) (D - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 78
PERCEPT
3 4
(A G T) (A G T)
1 (- - 1) (- - -)
2 (- - -) (D - -)
3 (- - 1) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 87
PERCEPT
3 4
(A G T) (A G T)
2 (- - -) (- - -)
3 (- - 1) (D - -)
4 (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
Agent performance: 86
PERCEPT
3 4
(A G T) (A G T)
3 (- - 1) (- - -)
4 (- 1 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
Agent performance: 85
PERCEPT
3 4
(A G T) (A G T)
3 (- - 1) (- - -)
4 (- 1 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- - -) (- - 1) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STARTING>
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 100
PERCEPT
0 1
(A G T) (A G T)
0 (D - 2) (- - -)
1 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 99
PERCEPT
0 1
(A G T) (A G T)
0 (- - 2) (- - -)
1 (D - -) (- 1 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 98
PERCEPT
0 1
(A G T) (A G T)
0 (- - 2) (- - -)
1 (L - -) (- 1 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 97
PERCEPT
0 1
(A G T) (A G T)
0 (- - 2) (- - -)
1 (U - -) (- 1 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 96
PERCEPT
0 1
(A G T) (A G T)
0 (- - 2) (- - -)
1 (R - -) (- 1 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 105
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -)
1 (- - -) (R - -) (- 1 -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (? ? ?) (? ? ?)
1 (V - -) (V 1 -) (- 1 -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 114
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -)
1 (- - -) (R - -) (- - 1)
2 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (? ? ?)
1 (V - -) (V - -) (V 1 -) (- - 1) (? ? ?)
2 (- - -) (- - -) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 113
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -)
1 (- - -) (D - -) (- - 1)
2 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - 1) (? ? ?)
2 (- - -) (- - -) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 112
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -)
1 (- - -) (L - -) (- - 1)
2 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - 1) (? ? ?)
2 (- - -) (- - -) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 111
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -)
1 (- - -) (U - -) (- - 1)
2 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - 1) (? ? ?)
2 (- - -) (- - -) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 110
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- 1 -)
1 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (- 1 -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - 1) (? ? ?)
2 (- - -) (- - -) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 109
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -)
1 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (- 1 -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - 1) (? ? ?)
2 (- - -) (- - -) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 118
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 117
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 116
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 115
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - 1) (D - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 114
PERCEPT
3 4
(A G T) (A G T)
1 (- - 1) (- - -)
2 (- - -) (D - -)
3 (- - 1) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 123
PERCEPT
3 4
(A G T) (A G T)
2 (- - -) (- - -)
3 (- - 1) (D - -)
4 (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
Agent performance: 122
PERCEPT
3 4
(A G T) (A G T)
3 (- - 1) (- - -)
4 (- 1 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
Agent performance: 121
PERCEPT
3 4
(A G T) (A G T)
3 (- - 1) (- - -)
4 (- 1 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (? ? ?) (? ? ?) (- - -) (- - 1) (V - -)
4 (? ? ?) (? ? ?) (- - -) (V 1 -) (V - -)
<STARTING>
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (D - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (L - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (U - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (R - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (R - -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (V - -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (R - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (D - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (L - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (L - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (V - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (U - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (V - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (U - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (V - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (R - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (V - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (R - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (V - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (V - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (R - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (V - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (V - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (D - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (D - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (D - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - 1) (V - -)
2 (- - -) (- - -) (- - 1) (- - -) (V - -)
3 (- - -) (- - -) (- - -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STARTING>
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (D - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (L - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (U - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (R - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (- 1 -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (R - -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (- 1 -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (R - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (D - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (L - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (U - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (- - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (U - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (R - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (- 1 -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (D - -) (- - -)
1 (- - -) (- - -) (- - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - 1) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (D - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (D - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (- - 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (V - -) (V - -) (- - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (V - -) (V - -) (- - -)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (- - -) (V - -) (V - -) (V - -) (- - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- 1 -)
4 (- - -) (L - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (- - -) (V - -) (V - -) (V - -) (- - -)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- 1 -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- 1 -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (V - -) (- - -) (- - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (U - -) (- - -) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (V - -) (- - -) (- - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (V - -) (- - -) (- - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (R - -) (- - -) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (V - -) (- - -) (- - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (V - -) (V - -) (- - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (R - -) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (V - -) (V - -) (- - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (V - -) (V - -) (V - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (R - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (V - -) (V - -) (V - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (V - -) (V - -) (V - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (V - -) (V - -) (V - -) (V - -) (- 1 -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 2) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (- - 1) (V - -) (- - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - -)
536
<STARTING>
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 100
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- 1 1) (R - -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 99
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- 1 1) (D - -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 98
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- 1 1) (L - -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 102
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 1) (L - -) (- - -)
3 (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 101
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 1) (U - -) (- - -)
3 (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 100
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (- 1 -) (- 1 2)
1 (- - -) (U - -) (- - -)
2 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (- 1 -) (- 1 2)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 109
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (U - -) (- 1 2)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- 1 2)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 108
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (R - -) (- 1 2)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- 1 2)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - 1)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 112
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - 1)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - 1)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 106
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 105
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (L - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 102
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (L - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 101
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 100
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 97
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 96
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 95
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (L - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 94
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 93
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 92
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 91
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (L - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 88
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (L - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 87
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 86
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 83
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 82
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 81
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (L - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 78
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (L - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 77
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 76
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 73
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 72
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 71
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 70
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (L - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 67
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 66
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (- - -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 63
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 62
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 59
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 58
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 55
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 52
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - -) (D - -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 51
PERCEPT
3 4
(A G T) (A G T)
2 (- - -) (- - -)
3 (- - -) (D - -)
4 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- 1 -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (V - -)
Agent performance: 60
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (V - -)
Agent performance: 59
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 58
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 1 -) (- - -) (- - -)
4 (- - 1) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 57
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 1 -) (- - -) (- - -)
4 (- - 1) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (- - 1) (V - -) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 56
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- - -) (- - -)
3 (- 1 -) (U - -) (- - -)
4 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
<STEP 48>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 55
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- - -) (- - -)
3 (- 1 -) (R - -) (- - -)
4 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 54
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- - -) (- - -)
3 (- 1 -) (D - -) (- - -)
4 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 53
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- - -) (- - -)
3 (- 1 -) (L - -) (- - -)
4 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - 1) (- - -) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 62
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - 1) (- - 1) (- - -)
3 (- - -) (L - -) (- - -)
4 (- 1 -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - 1) (- - 1) (- - -) (? ? ?)
3 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
4 (? ? ?) (- 1 -) (- - 1) (- - -) (? ? ?)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - 1) (- - 1)
3 (- 1 1) (L - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - 1) (- - 1) (? ? ?) (? ? ?)
3 (- 1 1) (V - -) (- - -) (? ? ?) (? ? ?)
4 (- 1 1) (- 1 -) (- - 1) (? ? ?) (? ? ?)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - 1)
3 (L - -) (- - -)
4 (- 1 1) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (- 1 1) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - 1)
3 (U - -) (- - -)
4 (- 1 1) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (- 1 1) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - 1)
3 (R - -) (- - -)
4 (- 1 1) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (- 1 1) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - 1)
3 (D - -) (- - -)
4 (- 1 1) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (- 1 1) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (D - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (L - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (U - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (R - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- - -) (R - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- - 1) (? ? ?) (? ? ?)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (1, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- - -) (D - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- - 1) (? ? ?) (? ? ?)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- - -) (L - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- - 1) (? ? ?) (? ? ?)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - 1)
3 (U - -) (- - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1
(A G T) (A G T)
1 (- 1 -) (- - 1)
2 (U - -) (- - 1)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 1 -)
1 (U - -) (- - 1)
2 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 1 -)
1 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 1 -)
1 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1)
1 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (? ? ?) (? ? ?)
1 (- - -) (- - 1) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STARTING>
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 100
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- 1 1) (R - -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 99
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- 1 1) (D - -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 98
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- 1 1) (L - -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 102
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 1) (L - -) (- - -)
3 (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (V 1 1) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 101
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 1) (U - -) (- - -)
3 (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 100
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (- 1 -) (- 1 2)
1 (- - -) (U - -) (- - -)
2 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (- 1 -) (- 1 2)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 109
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (U - -) (- 1 2)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V 1 -) (- 1 2)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 108
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (R - -) (- 1 2)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (- 1 2)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - 1)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 112
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - 1)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V 1 2)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 106
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - 1)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 105
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 102
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - -) (D - -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 101
PERCEPT
3 4
(A G T) (A G T)
2 (- - -) (- - -)
3 (- - -) (D - -)
4 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- 1 -)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (V - -)
Agent performance: 110
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V 1 -)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (V - -)
Agent performance: 109
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 108
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 1 -) (- - -) (- - -)
4 (- - 1) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (V - -)
4 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 107
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 1 -) (- - -) (- - -)
4 (- - 1) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (V - -)
4 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 106
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- - -) (- - -)
3 (- 1 -) (U - -) (- - -)
4 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (V - -)
4 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 105
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- - -) (- - -)
3 (- 1 -) (R - -) (- - -)
4 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (V - -)
4 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 104
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- - -) (- - -)
3 (- 1 -) (D - -) (- - -)
4 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (V - -)
4 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 103
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- - -) (- - -)
3 (- 1 -) (L - -) (- - -)
4 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (V - -)
4 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 112
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - 1) (- - 1) (- - -)
3 (- - -) (L - -) (- - -)
4 (- 1 -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (? ? ?) (- - 1) (- - 1) (V - -) (V - -)
3 (? ? ?) (- - -) (V 1 -) (V - -) (V - -)
4 (? ? ?) (- 1 -) (- - 1) (V - -) (V - -)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - 1) (- - 1)
3 (- 1 1) (L - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - 1)
3 (L - -) (- - -)
4 (- 1 1) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V 1 1) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - 1)
3 (U - -) (- - -)
4 (- 1 1) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - 1)
3 (R - -) (- - -)
4 (- 1 1) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - 1)
3 (D - -) (- - -)
4 (- 1 1) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (D - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V 1 1) (- 1 -) (- - 1) (V - -) (V - -)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (L - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (U - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (R - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- - -) (R - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V 1 -) (- - 1) (V - -) (V - -)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (1, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- - -) (D - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- - -) (L - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - 1)
3 (U - -) (- - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1
(A G T) (A G T)
1 (- 1 -) (- - 1)
2 (U - -) (- - 1)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 1 -)
1 (U - -) (- - 1)
2 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 1 -)
1 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 1 -)
1 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1)
1 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (- - 1) (V - -) (V - -)
<STARTING>
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (R - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (D - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (D - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (V - -)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (V - -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (- - -)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (V - -) (- - -) (- - -)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (L - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (V - -) (- - -) (- - -) (- - -)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (U - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (V - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (U - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (U - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 43>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 47>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 67>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 73>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 80>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 82>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 83>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 86>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 88>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 92>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (V - -) (- - 1) (- - -) (- - -) (- - -)
2 (V - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - 1) (- 1 -) (- 1 2)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STARTING>
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (R - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (D - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (L - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- 1 1) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (L - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (U - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (U - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- 1 -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (U - -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (R - -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (- 1 2)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - 1)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (R - 1)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - 1)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (D - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (- - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (D - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (D - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (D - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (- 1 -)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (V - -)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (- - -) (V - -)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (- - 1) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (- - 1) (V - -) (V - -)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (- 1 -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (- 1 -) (V - -) (V - -) (V - -)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- 1 1) (L - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (- 1 1) (V - -) (V - -) (V - -) (V - -)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (- 1 1) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (U - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (- - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- - -)
2 (U - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (- 1 -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (U - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 1 -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 45>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 47>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 48>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 78>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 80>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 81>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 83>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 86>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 87>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 92>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 102>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: -2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - 1) (- - 1) (- - -) (- - -)
3 (- - -) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- - 1) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - 1) (- - 1) (V - -) (V - -)
3 (V - -) (- - -) (- 1 -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
222
<STARTING>
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 100
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 1 1) (- 3 2) (- 2 6)
1 (- 5 3) (L 6 4) (- 4 3)
2 (- 2 4) (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (? ? ?) (- 5 3) (V 6 4) (- 4 3)
2 (? ? ?) (? ? ?) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 104
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 7 6) (- 1 1) (- 3 2)
1 (- 3 3) (L 4 2) (- 6 4)
2 (- 7 4) (- 2 4) (- 4 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 7 6) (- 1 1) (- 3 2) (? ? ?)
1 (? ? ?) (- 3 3) (V 4 2) (- 6 4) (? ? ?)
2 (? ? ?) (- 7 4) (- 2 4) (- 4 5) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 108
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1)
1 (- 4 6) (L 2 2) (- 4 2)
2 (- 6 9) (- 7 4) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (? ? ?) (? ? ?)
1 (- 4 6) (V 2 2) (- 4 2) (? ? ?) (? ? ?)
2 (- 6 9) (- 7 4) (- 2 4) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 3 5) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 112
PERCEPT
0 1
(A G T) (A G T)
0 (- 6 1) (- 7 6)
1 (L 3 5) (- 2 2)
2 (- 6 9) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (? ? ?) (? ? ?) (? ? ?)
1 (V 3 5) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (- 6 9) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 116
PERCEPT
0 1
(A G T) (A G T)
0 (- 6 1) (- 7 6)
1 (U 2 4) (- 2 2)
2 (- 6 9) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (? ? ?) (? ? ?) (? ? ?)
1 (V 2 4) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (- 6 9) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 120
PERCEPT
0 1
(A G T) (A G T)
0 (U 5 -) (- 7 6)
1 (- 2 4) (- 2 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 7 6) (? ? ?) (? ? ?) (? ? ?)
1 (- 2 4) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 129
PERCEPT
0 1
(A G T) (A G T)
0 (R 4 -) (- 7 6)
1 (- 2 4) (- 2 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 7 6) (? ? ?) (? ? ?) (? ? ?)
1 (- 2 4) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 133
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 4 -) (R 6 5) (- 1 1)
1 (- 2 4) (- 2 2) (- 4 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (V 6 5) (- 1 1) (? ? ?) (? ? ?)
1 (- 2 4) (- 2 2) (- 4 2) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (- 3 2) (- 2 6)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 137
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 6 5) (R - -) (- 3 2)
1 (- 2 2) (- 4 2) (- 6 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 6 5) (V - -) (- 3 2) (? ? ?)
1 (? ? ?) (- 2 2) (- 4 2) (- 6 4) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (- 2 6)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 141
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 2 1) (- 2 6)
1 (- 4 2) (- 6 4) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V 2 1) (- 2 6)
1 (? ? ?) (? ? ?) (- 4 2) (- 6 4) (- 4 3)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V 1 5)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 145
PERCEPT
3 4
(A G T) (A G T)
0 (- 2 1) (R 1 5)
1 (- 6 4) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (V 1 5)
1 (? ? ?) (? ? ?) (? ? ?) (- 6 4) (- 4 3)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 149
PERCEPT
3 4
(A G T) (A G T)
0 (- 2 1) (D - 4)
1 (- 6 4) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (V - 4)
1 (? ? ?) (? ? ?) (? ? ?) (- 6 4) (- 4 3)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 153
PERCEPT
3 4
(A G T) (A G T)
0 (- 2 1) (- - 4)
1 (- 6 4) (D 3 2)
2 (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (- - 4)
1 (? ? ?) (? ? ?) (? ? ?) (- 6 4) (V 3 2)
2 (? ? ?) (? ? ?) (? ? ?) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 157
PERCEPT
3 4
(A G T) (A G T)
1 (- 6 4) (- 3 2)
2 (- 4 5) (D 1 3)
3 (- 3 4) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 6 4) (- 3 2)
2 (? ? ?) (? ? ?) (? ? ?) (- 4 5) (V 1 3)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- 4 4)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 161
PERCEPT
3 4
(A G T) (A G T)
2 (- 4 5) (- 1 3)
3 (- 3 4) (D 3 3)
4 (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 4 5) (- 1 3)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (V 3 3)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 4) (- - 9)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (V - 8)
Agent performance: 155
PERCEPT
3 4
(A G T) (A G T)
3 (- 3 4) (- 3 3)
4 (- 4 4) (D - 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- 3 3)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 4) (V - 8)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (V - 7)
Agent performance: 149
PERCEPT
3 4
(A G T) (A G T)
3 (- 3 4) (- 3 3)
4 (- 4 4) (L - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- 3 3)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 4) (V - 7)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (V 3 3) (V - 7)
Agent performance: 153
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 6 2) (- 3 4) (- 3 3)
4 (- 4 3) (L 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 6 2) (- 3 4) (- 3 3)
4 (? ? ?) (? ? ?) (- 4 3) (V 3 3) (- - 7)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (V 3 2) (V 3 3) (V - 7)
Agent performance: 157
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 1 3) (- 6 2) (- 3 4)
4 (- 6 5) (L 3 2) (- 3 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 1 3) (- 6 2) (- 3 4) (? ? ?)
4 (? ? ?) (- 6 5) (V 3 2) (- 3 3) (? ? ?)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 161
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 6 5) (- 1 3) (- 6 2)
4 (- 4 -) (L 5 4) (- 3 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 6 5) (- 1 3) (- 6 2) (? ? ?) (? ? ?)
4 (- 4 -) (V 5 4) (- 3 2) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 3 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 170
PERCEPT
0 1
(A G T) (A G T)
3 (- 6 5) (- 1 3)
4 (L 3 -) (- 5 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 6 5) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (V 3 -) (- 5 4) (? ? ?) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 179
PERCEPT
0 1
(A G T) (A G T)
3 (- 6 5) (- 1 3)
4 (U 2 -) (- 5 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 6 5) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (V 2 -) (- 5 4) (? ? ?) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 183
PERCEPT
0 1
(A G T) (A G T)
2 (- 6 9) (- 7 4)
3 (U 5 4) (- 1 3)
4 (- 2 -) (- 5 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 6 9) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V 5 4) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (- 2 -) (- 5 4) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 187
PERCEPT
0 1
(A G T) (A G T)
1 (- 2 4) (- 2 2)
2 (U 5 8) (- 7 4)
3 (- 5 4) (- 1 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 2 4) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (V 5 8) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 4) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 189
PERCEPT
0 1
(A G T) (A G T)
0 (- 4 -) (- 6 5)
1 (U 1 3) (- 2 2)
2 (- 5 8) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (? ? ?) (? ? ?) (? ? ?)
1 (V 1 3) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 8) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 196
PERCEPT
0 1
(A G T) (A G T)
0 (U 3 -) (- 6 5)
1 (- 1 3) (- 2 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (- 6 5) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 3) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 205
PERCEPT
0 1
(A G T) (A G T)
0 (R 2 -) (- 6 5)
1 (- 1 3) (- 2 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 6 5) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 3) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 2 1) (V - 4)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 207
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 2 -) (R 5 4) (- - -)
1 (- 1 3) (- 2 2) (- 4 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (V 5 4) (- - -) (? ? ?) (? ? ?)
1 (- 1 3) (- 2 2) (- 4 2) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 2 1) (V - 4)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 204
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 5 4) (R - -) (- 2 1)
1 (- 2 2) (- 4 2) (- 6 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 5 4) (V - -) (- 2 1) (? ? ?)
1 (? ? ?) (- 2 2) (- 4 2) (- 6 4) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 4)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 206
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- - 4)
1 (- 4 2) (- 6 4) (- 3 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V 1 -) (- - 4)
1 (? ? ?) (? ? ?) (- 4 2) (- 6 4) (- 3 2)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 3)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 198
PERCEPT
3 4
(A G T) (A G T)
0 (- 1 -) (R - 3)
1 (- 6 4) (- 3 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - 3)
1 (? ? ?) (? ? ?) (? ? ?) (- 6 4) (- 3 2)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 192
PERCEPT
3 4
(A G T) (A G T)
0 (- 1 -) (D - 2)
1 (- 6 4) (- 3 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - 2)
1 (? ? ?) (? ? ?) (? ? ?) (- 6 4) (- 3 2)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 194
PERCEPT
3 4
(A G T) (A G T)
0 (- 1 -) (- - 2)
1 (- 6 4) (D 2 1)
2 (- 4 5) (- 1 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - 2)
1 (? ? ?) (? ? ?) (? ? ?) (- 6 4) (V 2 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 4 5) (- 1 3)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 196
PERCEPT
3 4
(A G T) (A G T)
1 (- 6 4) (- 2 1)
2 (- 4 5) (D - 2)
3 (- 3 4) (- 3 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 6 4) (- 2 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 4 5) (V - 2)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- 3 3)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 198
PERCEPT
3 4
(A G T) (A G T)
2 (- 4 5) (- - 2)
3 (- 3 4) (D 2 2)
4 (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 4 5) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (V 2 2)
4 (? ? ?) (? ? ?) (? ? ?) (- 3 3) (- - 7)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 6)
Agent performance: 190
PERCEPT
3 4
(A G T) (A G T)
3 (- 3 4) (- 2 2)
4 (- 3 3) (D - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- 2 2)
4 (? ? ?) (? ? ?) (? ? ?) (- 3 3) (V - 6)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 5)
Agent performance: 184
PERCEPT
3 4
(A G T) (A G T)
3 (- 3 4) (- 2 2)
4 (- 3 3) (L - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- 2 2)
4 (? ? ?) (? ? ?) (? ? ?) (- 3 3) (V - 5)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 2 -) (V 5 4) (V 3 2) (V 2 2) (V - 5)
Agent performance: 186
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 6 2) (- 3 4) (- 2 2)
4 (- 3 2) (L 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 6 2) (- 3 4) (- 2 2)
4 (? ? ?) (? ? ?) (- 3 2) (V 2 2) (- - 5)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 2 -) (V 5 4) (V 2 1) (V 2 2) (V - 5)
Agent performance: 188
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 1 3) (- 6 2) (- 3 4)
4 (- 5 4) (L 2 1) (- 2 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 1 3) (- 6 2) (- 3 4) (? ? ?)
4 (? ? ?) (- 5 4) (V 2 1) (- 2 2) (? ? ?)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 2 -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 190
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 5 4) (- 1 3) (- 6 2)
4 (- 2 -) (L 4 3) (- 2 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 4) (- 1 3) (- 6 2) (? ? ?) (? ? ?)
4 (- 2 -) (V 4 3) (- 2 1) (? ? ?) (? ? ?)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 1 -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 197
PERCEPT
0 1
(A G T) (A G T)
3 (- 5 4) (- 1 3)
4 (L 1 -) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 4) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (V 1 -) (- 4 3) (? ? ?) (? ? ?) (? ? ?)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 206
PERCEPT
0 1
(A G T) (A G T)
3 (- 5 4) (- 1 3)
4 (U - -) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 4) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 4 3) (? ? ?) (? ? ?) (? ? ?)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 208
PERCEPT
0 1
(A G T) (A G T)
2 (- 5 8) (- 7 4)
3 (U 4 3) (- 1 3)
4 (- - -) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 8) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V 4 3) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 4 3) (? ? ?) (? ? ?) (? ? ?)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 210
PERCEPT
0 1
(A G T) (A G T)
1 (- 1 3) (- 2 2)
2 (U 4 7) (- 7 4)
3 (- 4 3) (- 1 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 3) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (V 4 7) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 3) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 212
PERCEPT
0 1
(A G T) (A G T)
0 (- 2 -) (- 5 4)
1 (U - 2) (- 2 2)
2 (- 4 7) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (? ? ?) (? ? ?) (? ? ?)
1 (V - 2) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (- 4 7) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 219
PERCEPT
0 1
(A G T) (A G T)
0 (U 1 -) (- 5 4)
1 (- - 2) (- 2 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 5 4) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 228
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 5 4)
1 (- - 2) (- 2 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 5 4) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V 1 -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 230
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 4 3) (- - -)
1 (- - 2) (- 2 2) (- 4 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 4 3) (- - -) (? ? ?) (? ? ?)
1 (- - 2) (- 2 2) (- 4 2) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V 1 -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 227
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 4 3) (R - -) (- 1 -)
1 (- 2 2) (- 4 2) (- 6 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 4 3) (V - -) (- 1 -) (? ? ?)
1 (? ? ?) (- 2 2) (- 4 2) (- 6 4) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 234
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 2)
1 (- 4 2) (- 6 4) (- 2 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - 2)
1 (? ? ?) (? ? ?) (- 4 2) (- 6 4) (- 2 1)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 233
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 2)
1 (- 4 2) (- 6 4) (- 2 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - 2)
1 (? ? ?) (? ? ?) (- 4 2) (- 6 4) (- 2 1)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 235
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 2)
1 (- 4 2) (D 5 3) (- 2 1)
2 (- 2 4) (- 4 5) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (- 4 2) (V 5 3) (- 2 1)
2 (? ? ?) (? ? ?) (- 2 4) (- 4 5) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 239
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 4 2) (- 5 3) (- 2 1)
2 (- 2 4) (D 3 4) (- - 2)
3 (- 6 2) (- 3 4) (- 2 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 4 2) (- 5 3) (- 2 1)
2 (? ? ?) (? ? ?) (- 2 4) (V 3 4) (- - 2)
3 (? ? ?) (? ? ?) (- 6 2) (- 3 4) (- 2 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 243
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 2 4) (- 3 4) (- - 2)
3 (- 6 2) (D 2 3) (- 2 2)
4 (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- 2 4) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (- 6 2) (V 2 3) (- 2 2)
4 (? ? ?) (? ? ?) (- 2 1) (- 2 2) (- - 5)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 1 1) (V - 5)
Agent performance: 245
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 6 2) (- 2 3) (- 2 2)
4 (- 2 1) (D 1 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 6 2) (- 2 3) (- 2 2)
4 (? ? ?) (? ? ?) (- 2 1) (V 1 1) (- - 5)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V - -) (V - 5)
Agent performance: 249
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 6 2) (- 2 3) (- 2 2)
4 (- 2 1) (L - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 6 2) (- 2 3) (- 2 2)
4 (? ? ?) (? ? ?) (- 2 1) (V - -) (- - 5)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 4 3) (V 1 -) (V - -) (V - 5)
Agent performance: 251
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 1 3) (- 6 2) (- 2 3)
4 (- 4 3) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 1 3) (- 6 2) (- 2 3) (? ? ?)
4 (? ? ?) (- 4 3) (V 1 -) (- - -) (? ? ?)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 253
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 4 3) (- 1 3) (- 6 2)
4 (- - -) (L 3 2) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 3) (- 1 3) (- 6 2) (? ? ?) (? ? ?)
4 (- - -) (V 3 2) (- 1 -) (? ? ?) (? ? ?)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 250
PERCEPT
0 1
(A G T) (A G T)
3 (- 4 3) (- 1 3)
4 (L - -) (- 3 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 3) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 3 2) (? ? ?) (? ? ?) (? ? ?)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 249
PERCEPT
0 1
(A G T) (A G T)
3 (- 4 3) (- 1 3)
4 (U - -) (- 3 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 3) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 3 2) (? ? ?) (? ? ?) (? ? ?)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 251
PERCEPT
0 1
(A G T) (A G T)
2 (- 4 7) (- 7 4)
3 (U 3 2) (- 1 3)
4 (- - -) (- 3 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 4 7) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V 3 2) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 3 2) (? ? ?) (? ? ?) (? ? ?)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 253
PERCEPT
0 1
(A G T) (A G T)
1 (- - 2) (- 2 2)
2 (U 3 6) (- 7 4)
3 (- 3 2) (- 1 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (V 3 6) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 2) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 245
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 4 3)
1 (U - 1) (- 2 2)
2 (- 3 6) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (? ? ?) (? ? ?) (? ? ?)
1 (V - 1) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (- 3 6) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 242
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 4 3)
1 (- - 1) (- 2 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 4 3) (? ? ?) (? ? ?) (? ? ?)
1 (- - 1) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 241
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 4 3)
1 (- - 1) (- 2 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 4 3) (? ? ?) (? ? ?) (? ? ?)
1 (- - 1) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 243
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 3 2) (- - -)
1 (- - 1) (- 2 2) (- 4 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 3 2) (- - -) (? ? ?) (? ? ?)
1 (- - 1) (- 2 2) (- 4 2) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 240
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 3 2) (R - -) (- - -)
1 (- 2 2) (- 4 2) (- 5 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 3 2) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 2 2) (- 4 2) (- 5 3) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 67>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 239
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 3 2) (D - -) (- - -)
1 (- 2 2) (- 4 2) (- 5 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 3 2) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 2 2) (- 4 2) (- 5 3) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 241
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 3 2) (- - -) (- - -)
1 (- 2 2) (D 3 1) (- 5 3)
2 (- 7 4) (- 2 4) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 3 2) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 2 2) (V 3 1) (- 5 3) (? ? ?)
2 (? ? ?) (- 7 4) (- 2 4) (- 3 4) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 245
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 2 2) (- 3 1) (- 5 3)
2 (- 7 4) (D 1 3) (- 3 4)
3 (- 1 3) (- 6 2) (- 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 2 2) (- 3 1) (- 5 3) (? ? ?)
2 (? ? ?) (- 7 4) (V 1 3) (- 3 4) (? ? ?)
3 (? ? ?) (- 1 3) (- 6 2) (- 2 3) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 249
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- 1 3) (- 3 4)
3 (- 1 3) (D 5 1) (- 2 3)
4 (- 3 2) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 4) (- 1 3) (- 3 4) (? ? ?)
3 (? ? ?) (- 1 3) (V 5 1) (- 2 3) (? ? ?)
4 (? ? ?) (- 3 2) (- 1 -) (- - -) (? ? ?)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V - -) (V - -) (V - 5)
Agent performance: 256
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 1 3) (- 5 1) (- 2 3)
4 (- 3 2) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 1 3) (- 5 1) (- 2 3) (? ? ?)
4 (? ? ?) (- 3 2) (V - -) (- - -) (? ? ?)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V - -) (V - -) (V - 5)
Agent performance: 255
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 1 3) (- 5 1) (- 2 3)
4 (- 3 2) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 1 3) (- 5 1) (- 2 3) (? ? ?)
4 (? ? ?) (- 3 2) (V - -) (- - -) (? ? ?)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 257
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 3 2) (- 1 3) (- 5 1)
4 (- - -) (L 2 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 2) (- 1 3) (- 5 1) (? ? ?) (? ? ?)
4 (- - -) (V 2 1) (- - -) (? ? ?) (? ? ?)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 254
PERCEPT
0 1
(A G T) (A G T)
3 (- 3 2) (- 1 3)
4 (L - -) (- 2 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 2) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 2 1) (? ? ?) (? ? ?) (? ? ?)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 253
PERCEPT
0 1
(A G T) (A G T)
3 (- 3 2) (- 1 3)
4 (U - -) (- 2 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 2) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 2 1) (? ? ?) (? ? ?) (? ? ?)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 255
PERCEPT
0 1
(A G T) (A G T)
2 (- 3 6) (- 7 4)
3 (U 2 1) (- 1 3)
4 (- - -) (- 2 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 3 6) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V 2 1) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 2 1) (? ? ?) (? ? ?) (? ? ?)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 257
PERCEPT
0 1
(A G T) (A G T)
1 (- - 1) (- 2 2)
2 (U 2 5) (- 7 4)
3 (- 2 1) (- 1 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - 1) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (V 2 5) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (- 2 1) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 249
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 3 2)
1 (U - -) (- 2 2)
2 (- 2 5) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 5) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 248
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 3 2)
1 (R - -) (- 2 2)
2 (- 2 5) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 2 2) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 5) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 3 1) (V 5 3) (V 2 1)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 250
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -)
1 (- - -) (R 1 1) (- 3 1)
2 (- 2 5) (- 7 4) (- 1 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V 1 1) (- 3 1) (? ? ?) (? ? ?)
2 (- 2 5) (- 7 4) (- 1 3) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 2 -) (V 5 3) (V 2 1)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 252
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 3 2) (- - -) (- - -)
1 (- 1 1) (R 2 -) (- 5 3)
2 (- 7 4) (- 1 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 3 2) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 1 1) (V 2 -) (- 5 3) (? ? ?)
2 (? ? ?) (- 7 4) (- 1 3) (- 3 4) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 2 -) (V 4 2) (V 2 1)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 254
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 2)
1 (- 2 -) (R 4 2) (- 2 1)
2 (- 1 3) (- 3 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (- 2 -) (V 4 2) (- 2 1)
2 (? ? ?) (? ? ?) (- 1 3) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 2 -) (V 4 2) (V 1 -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 256
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - 2)
1 (- 4 2) (R 1 -)
2 (- 3 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 2) (V 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 2 -) (V 4 2) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 265
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - 2)
1 (- 4 2) (D - -)
2 (- 3 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 2) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 2 -) (V 4 2) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 264
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - 2)
1 (- 4 2) (L - -)
2 (- 3 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 2) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 2 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 266
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 2)
1 (- 2 -) (L 3 1) (- - -)
2 (- 1 3) (- 3 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (- 2 -) (V 3 1) (- - -)
2 (? ? ?) (? ? ?) (- 1 3) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 273
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 3 2) (- - -) (- - -)
1 (- 1 1) (L 1 -) (- 3 1)
2 (- 7 4) (- 1 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 3 2) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 1 1) (V 1 -) (- 3 1) (? ? ?)
2 (? ? ?) (- 7 4) (- 1 3) (- 3 4) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 275
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -)
1 (- - -) (L - -) (- 1 -)
2 (- 2 5) (- 7 4) (- 1 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- 1 -) (? ? ?) (? ? ?)
2 (- 2 5) (- 7 4) (- 1 3) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 274
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -)
1 (- - -) (U - -) (- 1 -)
2 (- 2 5) (- 7 4) (- 1 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- 1 -) (? ? ?) (? ? ?)
2 (- 2 5) (- 7 4) (- 1 3) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 1) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 276
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U 2 1) (- - -)
1 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 2 1) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- 1 -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 280
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- - -)
1 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 1 -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- 1 -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 277
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 -) (R - -) (- - -)
1 (- - -) (- 1 -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- 1 -) (- 3 1) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 276
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 -) (D - -) (- - -)
1 (- - -) (- 1 -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- 1 -) (- 3 1) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 283
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -)
1 (- - -) (D - -) (- 3 1)
2 (- 7 4) (- 1 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- 3 1) (? ? ?)
2 (? ? ?) (- 7 4) (- 1 3) (- 3 4) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 285
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- 3 1)
2 (- 7 4) (D - 2) (- 3 4)
3 (- 1 3) (- 5 1) (- 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- 3 1) (? ? ?)
2 (? ? ?) (- 7 4) (V - 2) (- 3 4) (? ? ?)
3 (? ? ?) (- 1 3) (- 5 1) (- 2 3) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 287
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- - 2) (- 3 4)
3 (- 1 3) (D 4 -) (- 2 3)
4 (- 2 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 4) (- - 2) (- 3 4) (? ? ?)
3 (? ? ?) (- 1 3) (V 4 -) (- 2 3) (? ? ?)
4 (? ? ?) (- 2 1) (- - -) (- - -) (? ? ?)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 284
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 1 3) (- 4 -) (- 2 3)
4 (- 2 1) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 1 3) (- 4 -) (- 2 3) (? ? ?)
4 (? ? ?) (- 2 1) (V - -) (- - -) (? ? ?)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 283
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 1 3) (- 4 -) (- 2 3)
4 (- 2 1) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 1 3) (- 4 -) (- 2 3) (? ? ?)
4 (? ? ?) (- 2 1) (V - -) (- - -) (? ? ?)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 285
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 2 1) (- 1 3) (- 4 -)
4 (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 2 1) (- 1 3) (- 4 -) (? ? ?) (? ? ?)
4 (- - -) (V 1 -) (- - -) (? ? ?) (? ? ?)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 282
PERCEPT
0 1
(A G T) (A G T)
3 (- 2 1) (- 1 3)
4 (L - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 2 1) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 281
PERCEPT
0 1
(A G T) (A G T)
3 (- 2 1) (- 1 3)
4 (U - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 2 1) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 283
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 5) (- 7 4)
3 (U 1 -) (- 1 3)
4 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 5) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V 1 -) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 285
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (U 1 4) (- 7 4)
3 (- 1 -) (- 1 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V 1 4) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 282
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 1 -)
1 (U - -) (- - -)
2 (- 1 4) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 1 4) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 281
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 1 -)
1 (R - -) (- - -)
2 (- 1 4) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 1 4) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 106>
SELECTED ACTION: Turn
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 280
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 1 -)
1 (D - -) (- - -)
2 (- 1 4) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 1 4) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 282
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (D - 3) (- 7 4)
3 (- 1 -) (- 1 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 289
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- 1 3)
4 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 109>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 288
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (L - -) (- 1 3)
4 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 287
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- 1 3)
4 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 286
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- 1 3)
4 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 1 3) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 2) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 290
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - 3) (- 7 4) (- - 2)
3 (- - -) (R - 2) (- 4 -)
4 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (- - 2) (? ? ?) (? ? ?)
3 (- - -) (V - 2) (- 4 -) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 2) (V 3 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 297
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- - 2) (- 3 4)
3 (- - 2) (R 3 -) (- 2 3)
4 (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 4) (- - 2) (- 3 4) (? ? ?)
3 (? ? ?) (- - 2) (V 3 -) (- 2 3) (? ? ?)
4 (? ? ?) (- 1 -) (- - -) (- - -) (? ? ?)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 2) (V 3 -) (V 1 2) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 299
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 2) (- 3 4) (- - 2)
3 (- 3 -) (R 1 2) (- 2 2)
4 (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 2) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (- 3 -) (V 1 2) (- 2 2)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - 5)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 2) (V 3 -) (V 1 2) (V 1 1)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 301
PERCEPT
3 4
(A G T) (A G T)
2 (- 3 4) (- - 2)
3 (- 1 2) (R 1 1)
4 (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (- 1 2) (V 1 1)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 5)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 2) (V 3 -) (V 1 2) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 305
PERCEPT
3 4
(A G T) (A G T)
2 (- 3 4) (- - 2)
3 (- 1 2) (D - -)
4 (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (- 1 2) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 5)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 2) (V 3 -) (V 1 2) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 304
PERCEPT
3 4
(A G T) (A G T)
2 (- 3 4) (- - 2)
3 (- 1 2) (L - -)
4 (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (- 1 2) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 5)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 2) (V 3 -) (V - 1) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 306
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 2) (- 3 4) (- - 2)
3 (- 3 -) (L - 1) (- - -)
4 (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 2) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (- 3 -) (V - 1) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - 5)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 2) (V 2 -) (V - 1) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 313
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- - 2) (- 3 4)
3 (- - 2) (L 2 -) (- - 1)
4 (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 4) (- - 2) (- 3 4) (? ? ?)
3 (? ? ?) (- - 2) (V 2 -) (- - 1) (? ? ?)
4 (? ? ?) (- 1 -) (- - -) (- - -) (? ? ?)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 305
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - 3) (- 7 4) (- - 2)
3 (- - -) (L - 1) (- 2 -)
4 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (- - 2) (? ? ?) (? ? ?)
3 (- - -) (V - 1) (- 2 -) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 302
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (L - -) (- - 1)
4 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 122>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 301
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 300
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 299
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 296
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 295
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 127>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 294
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 293
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (R - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 300
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- 2 -)
4 (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (- 2 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 297
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 1) (- 2 -) (- - 1)
4 (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - 1) (- 2 -) (- - 1) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 296
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 1) (- 2 -) (- - 1)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - 1) (- 2 -) (- - 1) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 295
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 1) (- 2 -) (- - 1)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - 1) (- 2 -) (- - 1) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 2 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 294
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 1) (- 2 -) (- - 1)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - 1) (- 2 -) (- - 1) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 301
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- - 2) (- 3 4)
3 (- - 1) (U 1 -) (- - 1)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 4) (- - 2) (- 3 4) (? ? ?)
3 (? ? ?) (- - 1) (V 1 -) (- - 1) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 293
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- 3 1)
2 (- 7 4) (U - 1) (- 3 4)
3 (- - 1) (- 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- 3 1) (? ? ?)
2 (? ? ?) (- 7 4) (V - 1) (- 3 4) (? ? ?)
3 (? ? ?) (- - 1) (- 1 -) (- - 1) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 290
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -)
1 (- - -) (U - -) (- 3 1)
2 (- 7 4) (- - 1) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- 3 1) (? ? ?)
2 (? ? ?) (- 7 4) (- - 1) (- 3 4) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 289
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -)
1 (- - -) (R - -) (- 3 1)
2 (- 7 4) (- - 1) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- 3 1) (? ? ?)
2 (? ? ?) (- 7 4) (- - 1) (- 3 4) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 2 -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 291
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 2)
1 (- - -) (R 2 -) (- - -)
2 (- - 1) (- 3 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (- - -) (V 2 -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 2 -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 288
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - 2)
1 (- 2 -) (R - -)
2 (- 3 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 140>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 2 -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 287
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - 2)
1 (- 2 -) (D - -)
2 (- 3 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 2 -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 286
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - 2)
1 (- 2 -) (L - -)
2 (- 3 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 293
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 2)
1 (- - -) (L 1 -) (- - -)
2 (- - 1) (- 3 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (- - -) (V 1 -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 290
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -)
1 (- - -) (L - -) (- 1 -)
2 (- 7 4) (- - 1) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- 1 -) (? ? ?)
2 (? ? ?) (- 7 4) (- - 1) (- 3 4) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 289
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -)
1 (- - -) (U - -) (- 1 -)
2 (- 7 4) (- - 1) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- 1 -) (? ? ?)
2 (? ? ?) (- 7 4) (- - 1) (- 3 4) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 288
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -)
1 (- - -) (R - -) (- 1 -)
2 (- 7 4) (- - 1) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- 1 -) (? ? ?)
2 (? ? ?) (- 7 4) (- - 1) (- 3 4) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 295
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 2)
1 (- - -) (R - -) (- - -)
2 (- - 1) (- 3 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 3 4) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 294
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 2)
1 (- - -) (D - -) (- - -)
2 (- - 1) (- 3 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- 3 4) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 296
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 1) (D 2 3) (- - 2)
3 (- 1 -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (V 2 3) (- - 2)
3 (? ? ?) (? ? ?) (- 1 -) (- - 1) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 288
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- 2 3) (- - 2)
3 (- 1 -) (D - -) (- - -)
4 (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 1) (- 2 3) (- - 2)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - 5)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 287
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- 2 3) (- - 2)
3 (- 1 -) (L - -) (- - -)
4 (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 1) (- 2 3) (- - 2)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - 5)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 294
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- - 1) (- 2 3)
3 (- - 1) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 4) (- - 1) (- 2 3) (? ? ?)
3 (? ? ?) (- - 1) (V - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 293
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- - 1) (- 2 3)
3 (- - 1) (U - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 4) (- - 1) (- 2 3) (? ? ?)
3 (? ? ?) (- - 1) (V - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 292
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- - 1) (- 2 3)
3 (- - 1) (R - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 4) (- - 1) (- 2 3) (? ? ?)
3 (? ? ?) (- - 1) (V - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 289
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- 2 3) (- - 2)
3 (- - -) (R - -) (- - -)
4 (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 1) (- 2 3) (- - 2)
3 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - 5)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 288
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- 2 3) (- - 2)
3 (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 1) (- 2 3) (- - 2)
3 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - 5)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 287
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- 2 3) (- - 2)
3 (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 1) (- 2 3) (- - 2)
3 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - 5)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 286
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- 2 3) (- - 2)
3 (- - -) (U - -) (- - -)
4 (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 1) (- 2 3) (- - 2)
3 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - 5)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 1 2) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 288
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 1) (U 1 2) (- - 2)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (V 1 2) (- - 2)
3 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 1 2) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 285
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 2)
1 (- - -) (U - -) (- - -)
2 (- - 1) (- 1 2) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- 1 2) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 1 2) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 284
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 2)
1 (- - -) (R - -) (- - -)
2 (- - 1) (- 1 2) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- 1 2) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V 1 2) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 283
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 2)
1 (- - -) (D - -) (- - -)
2 (- - 1) (- 1 2) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - 2)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- 1 2) (- - 2)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 285
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 1) (D - 1) (- - 2)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (V - 1) (- - 2)
3 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 282
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- - 1) (- - 2)
3 (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 1) (- - 1) (- - 2)
3 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - 5)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 279
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- - -) (D - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - 5)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 278
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- - -) (L - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - 5)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 275
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - 1) (- - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 272
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (- - -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 269
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 268
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 265
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 264
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 263
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 260
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 259
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 258
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 255
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 254
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 253
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 250
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 249
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 248
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 245
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 244
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 243
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 240
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 239
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 238
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 235
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 234
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 233
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 230
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 229
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 228
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 225
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 224
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 223
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 220
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 219
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 218
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 215
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 214
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 213
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 210
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 209
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 208
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 205
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 204
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 203
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 200
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 199
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 198
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 195
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 194
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 193
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 190
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 189
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 188
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 187
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 186
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 185
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 184
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 222>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 181
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 180
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 179
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 176
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 175
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 174
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 228>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 171
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 170
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 169
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 231>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 166
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 165
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 164
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 234>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 161
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 160
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 159
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 237>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 156
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 155
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 154
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 240>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 151
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 150
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 149
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 243>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 146
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 145
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 144
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 141
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 140
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 139
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 249>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 136
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 135
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 134
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 131
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 130
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 129
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 255>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 126
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 125
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 124
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 258>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 121
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 120
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 119
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 116
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 115
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 114
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 264>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 111
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 110
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 109
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 106
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 105
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 104
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 103
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 102
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 101
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 100
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 274>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 97
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 96
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 95
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 92
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 91
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 90
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 280>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 87
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 86
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 85
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 283>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 82
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 81
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 80
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 79
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 76
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- - -)
4 (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (- - -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 73
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- - -)
4 (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - 1) (- - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 72
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - 1) (- - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 71
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - 1) (- - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 291>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 68
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (- - -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 65
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 64
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 294>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 61
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 60
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 59
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 56
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 55
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 54
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 51
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 50
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 49
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 303>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 46
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 45
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 44
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 306>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 41
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 40
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 39
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 309>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 36
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 35
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 34
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 31
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 30
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 29
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 26
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 25
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 24
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 318>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 21
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 20
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 19
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 321>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 16
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 15
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 14
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 324>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 11
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 10
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 326>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 9
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (D - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 327>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 6
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 5
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 4
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 330>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 1
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (U - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (V - 1) (V - 1) (V - 2)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 0
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- 7 4)
3 (R - -) (- - 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- 7 4) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STARTING>
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 100
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 1 1) (- 3 2) (- 2 6)
1 (- 5 3) (L 6 4) (- 4 3)
2 (- 2 4) (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (? ? ?) (- 5 3) (V 6 4) (- 4 3)
2 (? ? ?) (? ? ?) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 5 3) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 105
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 1 1) (- 3 2) (- 2 6)
1 (- 5 3) (L 5 3) (- 4 3)
2 (- 2 4) (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (? ? ?) (- 5 3) (V 6 4) (- 4 3)
2 (? ? ?) (? ? ?) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 4 2) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 110
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 1 1) (- 3 2) (- 2 6)
1 (- 5 3) (L 4 2) (- 4 3)
2 (- 2 4) (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (? ? ?) (- 5 3) (V 5 3) (- 4 3)
2 (? ? ?) (? ? ?) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Stay
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 3 1) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 115
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 1 1) (- 3 2) (- 2 6)
1 (- 5 3) (L 3 1) (- 4 3)
2 (- 2 4) (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (? ? ?) (- 5 3) (V 4 2) (- 4 3)
2 (? ? ?) (? ? ?) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Stay
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 2 -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 120
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 1 1) (- 3 2) (- 2 6)
1 (- 5 3) (L 2 -) (- 4 3)
2 (- 2 4) (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (? ? ?) (- 5 3) (V 3 1) (- 4 3)
2 (? ? ?) (? ? ?) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 1 -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 130
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 1 1) (- 3 2) (- 2 6)
1 (- 5 3) (L 1 -) (- 4 3)
2 (- 2 4) (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (? ? ?) (- 5 3) (V 2 -) (- 4 3)
2 (? ? ?) (? ? ?) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Stay
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 140
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 1 1) (- 3 2) (- 2 6)
1 (- 5 3) (L - -) (- 4 3)
2 (- 2 4) (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (? ? ?) (- 5 3) (V 1 -) (- 4 3)
2 (? ? ?) (? ? ?) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 4 2) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 144
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 7 6) (- 1 1) (- 3 2)
1 (- 3 3) (L 4 2) (- - -)
2 (- 7 4) (- 2 4) (- 4 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (- 3 3) (V 5 3) (V - -) (- 4 3)
2 (? ? ?) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 3 1) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 149
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 7 6) (- 1 1) (- 3 2)
1 (- 3 3) (L 3 1) (- - -)
2 (- 7 4) (- 2 4) (- 4 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (- 3 3) (V 4 2) (V - -) (- 4 3)
2 (? ? ?) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 2 -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 154
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 7 6) (- 1 1) (- 3 2)
1 (- 3 3) (L 2 -) (- - -)
2 (- 7 4) (- 2 4) (- 4 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (- 3 3) (V 3 1) (V - -) (- 4 3)
2 (? ? ?) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 1 -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 164
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 7 6) (- 1 1) (- 3 2)
1 (- 3 3) (L 1 -) (- - -)
2 (- 7 4) (- 2 4) (- 4 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (- 3 3) (V 2 -) (V - -) (- 4 3)
2 (? ? ?) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 174
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 7 6) (- 1 1) (- 3 2)
1 (- 3 3) (L - -) (- - -)
2 (- 7 4) (- 2 4) (- 4 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (? ? ?) (- 3 3) (V 1 -) (V - -) (- 4 3)
2 (? ? ?) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V 2 2) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 178
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1)
1 (- 4 6) (L 2 2) (- - -)
2 (- 6 9) (- 7 4) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V 3 3) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V 1 1) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 183
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1)
1 (- 4 6) (L 1 1) (- - -)
2 (- 6 9) (- 7 4) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V 2 2) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 188
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1)
1 (- 4 6) (L - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V 1 1) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 3 5) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 192
PERCEPT
0 1
(A G T) (A G T)
0 (- 6 1) (- 7 6)
1 (L 3 5) (- - -)
2 (- 6 9) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 4 6) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 196
PERCEPT
0 1
(A G T) (A G T)
0 (- 6 1) (- 7 6)
1 (U 2 4) (- - -)
2 (- 6 9) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 3 5) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 1 3) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 201
PERCEPT
0 1
(A G T) (A G T)
0 (- 6 1) (- 7 6)
1 (U 1 3) (- - -)
2 (- 6 9) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 206
PERCEPT
0 1
(A G T) (A G T)
0 (- 6 1) (- 7 6)
1 (U - 2) (- - -)
2 (- 6 9) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 1 3) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 210
PERCEPT
0 1
(A G T) (A G T)
0 (U 5 -) (- 7 6)
1 (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 219
PERCEPT
0 1
(A G T) (A G T)
0 (R 4 -) (- 7 6)
1 (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 229
PERCEPT
0 1
(A G T) (A G T)
0 (R 3 -) (- 7 6)
1 (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 239
PERCEPT
0 1
(A G T) (A G T)
0 (R 2 -) (- 7 6)
1 (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 249
PERCEPT
0 1
(A G T) (A G T)
0 (R 1 -) (- 7 6)
1 (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 259
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 7 6)
1 (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 5) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 263
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 6 5) (- 1 1)
1 (- - 2) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 4) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 268
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 5 4) (- 1 1)
1 (- - 2) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 5) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 273
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 4 3) (- 1 1)
1 (- - 2) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 4) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 28>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 278
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 3 2) (- 1 1)
1 (- - 2) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 1) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 283
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 2 1) (- 1 1)
1 (- - 2) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 30>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 288
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 1 1)
1 (- - 2) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 1) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 298
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 1)
1 (- - 2) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 302
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 3 2)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 2 1) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 306
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 2 1) (- 2 6)
1 (- - -) (- - -) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 311
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 2 6)
1 (- - -) (- - -) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 2 1) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 35>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 321
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 2 6)
1 (- - -) (- - -) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 1 5)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 325
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R 1 5)
1 (- - -) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 329
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - 4)
1 (- - -) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 1 5)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 333
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - 4)
1 (- - -) (D 3 2)
2 (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 39>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 2 1)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 338
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - 4)
1 (- - -) (D 2 1)
2 (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 40>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 1 -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 343
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - 4)
1 (- - -) (D 1 -)
2 (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 2 1)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 41>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 353
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - 4)
1 (- - -) (D - -)
2 (- 4 5) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 1 -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 357
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- 4 5) (D 1 3)
3 (- 3 4) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 2 4)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- 4 4)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 362
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- 4 5) (D - 2)
3 (- 3 4) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- 4 4)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 366
PERCEPT
3 4
(A G T) (A G T)
2 (- 4 5) (- - 2)
3 (- 3 4) (D 3 3)
4 (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (V 4 4)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 4) (- - 9)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 371
PERCEPT
3 4
(A G T) (A G T)
2 (- 4 5) (- - 2)
3 (- 3 4) (D 2 2)
4 (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (V 3 3)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 4) (- - 9)
<STEP 46>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 1 1)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 376
PERCEPT
3 4
(A G T) (A G T)
2 (- 4 5) (- - 2)
3 (- 3 4) (D 1 1)
4 (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (V 2 2)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 4) (- - 9)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 381
PERCEPT
3 4
(A G T) (A G T)
2 (- 4 5) (- - 2)
3 (- 3 4) (D - -)
4 (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (V 1 1)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 4) (- - 9)
<STEP 48>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 380
PERCEPT
3 4
(A G T) (A G T)
2 (- 4 5) (- - 2)
3 (- 3 4) (L - -)
4 (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 4) (- - 9)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (V 2 3) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 384
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 2 4) (- 4 5) (- - 2)
3 (- 6 2) (L 2 3) (- - -)
4 (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (? ? ?) (- 6 2) (V 3 4) (V - -)
4 (? ? ?) (? ? ?) (- 4 3) (- 4 4) (- - 9)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (V 1 2) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 389
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 2 4) (- 4 5) (- - 2)
3 (- 6 2) (L 1 2) (- - -)
4 (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (? ? ?) (- 6 2) (V 2 3) (V - -)
4 (? ? ?) (? ? ?) (- 4 3) (- 4 4) (- - 9)
<STEP 51>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 394
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 2 4) (- 4 5) (- - 2)
3 (- 6 2) (L - 1) (- - -)
4 (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (? ? ?) (- 6 2) (V 1 2) (V - -)
4 (? ? ?) (? ? ?) (- 4 3) (- 4 4) (- - 9)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 5 1) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 398
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- 2 4) (- 4 5)
3 (- 1 3) (L 5 1) (- - 1)
4 (- 6 5) (- 4 3) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (- 1 3) (V 6 2) (V - 1) (V - -)
4 (? ? ?) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 53>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 4 -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 403
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- 2 4) (- 4 5)
3 (- 1 3) (L 4 -) (- - 1)
4 (- 6 5) (- 4 3) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (- 1 3) (V 5 1) (V - 1) (V - -)
4 (? ? ?) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 54>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 3 -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 413
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- 2 4) (- 4 5)
3 (- 1 3) (L 3 -) (- - 1)
4 (- 6 5) (- 4 3) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (- 1 3) (V 4 -) (V - 1) (V - -)
4 (? ? ?) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 2 -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 423
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- 2 4) (- 4 5)
3 (- 1 3) (L 2 -) (- - 1)
4 (- 6 5) (- 4 3) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (- 1 3) (V 3 -) (V - 1) (V - -)
4 (? ? ?) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 56>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 1 -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 433
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- 2 4) (- 4 5)
3 (- 1 3) (L 1 -) (- - 1)
4 (- 6 5) (- 4 3) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (- 1 3) (V 2 -) (V - 1) (V - -)
4 (? ? ?) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 443
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 4) (- 2 4) (- 4 5)
3 (- 1 3) (L - -) (- - 1)
4 (- 6 5) (- 4 3) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (? ? ?) (- 1 3) (V 1 -) (V - 1) (V - -)
4 (? ? ?) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 447
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 6 9) (- 7 4) (- 2 4)
3 (- 6 5) (L - 2) (- - -)
4 (- 4 -) (- 6 5) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (V 1 3) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 451
PERCEPT
0 1
(A G T) (A G T)
2 (- 6 9) (- 7 4)
3 (L 5 4) (- - 2)
4 (- 4 -) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 6 5) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 455
PERCEPT
0 1
(A G T) (A G T)
2 (- 6 9) (- 7 4)
3 (U 4 3) (- - 2)
4 (- 4 -) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 61>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 3 2) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 460
PERCEPT
0 1
(A G T) (A G T)
2 (- 6 9) (- 7 4)
3 (U 3 2) (- - 2)
4 (- 4 -) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 2 1) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 465
PERCEPT
0 1
(A G T) (A G T)
2 (- 6 9) (- 7 4)
3 (U 2 1) (- - 2)
4 (- 4 -) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 3 2) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 63>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 1 -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 470
PERCEPT
0 1
(A G T) (A G T)
2 (- 6 9) (- 7 4)
3 (U 1 -) (- - 2)
4 (- 4 -) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 2 1) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 64>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 480
PERCEPT
0 1
(A G T) (A G T)
2 (- 6 9) (- 7 4)
3 (U - -) (- - 2)
4 (- 4 -) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 1 -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 484
PERCEPT
0 1
(A G T) (A G T)
1 (- - 2) (- - -)
2 (U 5 8) (- 7 4)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 66>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 489
PERCEPT
0 1
(A G T) (A G T)
1 (- - 2) (- - -)
2 (U 4 7) (- 7 4)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 67>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 3 6) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 494
PERCEPT
0 1
(A G T) (A G T)
1 (- - 2) (- - -)
2 (U 3 6) (- 7 4)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 68>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 2 5) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 499
PERCEPT
0 1
(A G T) (A G T)
1 (- - 2) (- - -)
2 (U 2 5) (- 7 4)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 3 6) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 69>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 504
PERCEPT
0 1
(A G T) (A G T)
1 (- - 2) (- - -)
2 (U 1 4) (- 7 4)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 2 5) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 70>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 509
PERCEPT
0 1
(A G T) (A G T)
1 (- - 2) (- - -)
2 (U - 3) (- 7 4)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 501
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - 1) (- - -)
2 (- - 3) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 498
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 73>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 497
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 496
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - -)
1 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 488
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (D - -) (- - -)
2 (- - 3) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 480
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (D - 2) (- 7 4)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 477
PERCEPT
0 1
(A G T) (A G T)
2 (- - 2) (- 7 4)
3 (D - -) (- - 2)
4 (- 4 -) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 3 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 486
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 2)
4 (D 3 -) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 2 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 495
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 2)
4 (L 2 -) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 3 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 80>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 1 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 504
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 2)
4 (U 1 -) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 2 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 81>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 514
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 2)
4 (U - -) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 1 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 82>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 513
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - 2)
4 (R - -) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 5 4) (- 4 3) (- 4 4) (- - 9)
Agent performance: 517
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - 2) (- - -)
4 (- - -) (R 5 4) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 84>
SELECTED ACTION: Stay
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 4 3) (- 4 3) (- 4 4) (- - 9)
Agent performance: 522
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - 2) (- - -)
4 (- - -) (R 4 3) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 5 4) (- 4 3) (- 4 4) (- - 9)
<STEP 85>
SELECTED ACTION: Stay
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 3 2) (- 4 3) (- 4 4) (- - 9)
Agent performance: 527
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - 2) (- - -)
4 (- - -) (R 3 2) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 4 3) (- 4 3) (- 4 4) (- - 9)
<STEP 86>
SELECTED ACTION: Stay
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 2 1) (- 4 3) (- 4 4) (- - 9)
Agent performance: 532
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - 2) (- - -)
4 (- - -) (R 2 1) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 3 2) (- 4 3) (- 4 4) (- - 9)
<STEP 87>
SELECTED ACTION: Stay
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 1 -) (- 4 3) (- 4 4) (- - 9)
Agent performance: 537
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - 2) (- - -)
4 (- - -) (R 1 -) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 2 1) (- 4 3) (- 4 4) (- - 9)
<STEP 88>
SELECTED ACTION: Stay
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (- 4 3) (- 4 4) (- - 9)
Agent performance: 547
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - 2) (- - -)
4 (- - -) (R - -) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 1 -) (- 4 3) (- 4 4) (- - 9)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 3 2) (- 4 4) (- - 9)
Agent performance: 551
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 2) (- - -) (- - 1)
4 (- - -) (R 3 2) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 4 3) (- 4 4) (- - 9)
<STEP 90>
SELECTED ACTION: Stay
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 2 1) (- 4 4) (- - 9)
Agent performance: 556
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 2) (- - -) (- - 1)
4 (- - -) (R 2 1) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 3 2) (- 4 4) (- - 9)
<STEP 91>
SELECTED ACTION: Stay
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 1 -) (- 4 4) (- - 9)
Agent performance: 561
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 2) (- - -) (- - 1)
4 (- - -) (R 1 -) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 2 1) (- 4 4) (- - 9)
<STEP 92>
SELECTED ACTION: Stay
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (- 4 4) (- - 9)
Agent performance: 571
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 2) (- - -) (- - 1)
4 (- - -) (R - -) (- 4 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 1 -) (- 4 4) (- - 9)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 3 3) (- - 9)
Agent performance: 575
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- - -)
4 (- - -) (R 3 3) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 4 4) (- - 9)
<STEP 94>
SELECTED ACTION: Stay
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 2 2) (- - 9)
Agent performance: 580
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- - -)
4 (- - -) (R 2 2) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 3 3) (- - 9)
<STEP 95>
SELECTED ACTION: Stay
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 1) (- - 9)
Agent performance: 585
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- - -)
4 (- - -) (R 1 1) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 2 2) (- - 9)
<STEP 96>
SELECTED ACTION: Stay
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 590
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- - -)
4 (- - -) (R - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 1) (- - 9)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 589
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- - -)
4 (- - -) (D - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 588
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- - -)
4 (- - -) (L - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 587
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - 1) (- - -)
4 (- - -) (U - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 579
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 2 4) (- 4 5) (- - 2)
3 (- - -) (U - -) (- - -)
4 (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 583
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- 2 4) (U 3 4) (- - 2)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 102>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 2 3) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 588
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- 2 4) (U 2 3) (- - 2)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 103>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 1 2) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 593
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- 2 4) (U 1 2) (- - 2)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 2 3) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 104>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 598
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- 2 4) (U - 1) (- - 2)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 1 2) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 595
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 4)
1 (- - -) (U - -) (- - -)
2 (- 2 4) (- - 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 592
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - 4)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 107>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 591
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 4)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 108>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 590
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 4)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 587
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 4)
1 (- - -) (D - -) (- - -)
2 (- 2 4) (- - 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 586
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - 4)
1 (- - -) (L - -) (- - -)
2 (- 2 4) (- - 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 583
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- 7 4) (- 2 4) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 580
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 577
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (L - -) (- - -)
2 (- - 2) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 576
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - -)
2 (- - 2) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 573
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 572
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 569
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 568
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 565
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 6 3) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 569
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 2) (D 6 3) (- 2 4)
3 (- - -) (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 121>
SELECTED ACTION: Stay
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 5 2) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 574
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 2) (D 5 2) (- 2 4)
3 (- - -) (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 6 3) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 122>
SELECTED ACTION: Stay
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 4 1) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 579
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 2) (D 4 1) (- 2 4)
3 (- - -) (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 5 2) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 123>
SELECTED ACTION: Stay
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 3 -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 584
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 2) (D 3 -) (- 2 4)
3 (- - -) (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 4 1) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 124>
SELECTED ACTION: Stay
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 2 -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 594
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 2) (D 2 -) (- 2 4)
3 (- - -) (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 3 -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 125>
SELECTED ACTION: Stay
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 1 -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 604
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 2) (D 1 -) (- 2 4)
3 (- - -) (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 2 -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 126>
SELECTED ACTION: Stay
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 614
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 2) (D - -) (- 2 4)
3 (- - -) (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 1 -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 127>
SELECTED ACTION: Turn
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 613
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 2) (L - -) (- 2 4)
3 (- - -) (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 612
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 2) (U - -) (- 2 4)
3 (- - -) (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 611
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - 2) (R - -) (- 2 4)
3 (- - -) (- - 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (V 1 3) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 615
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (R 1 3) (- - 1)
3 (- - 2) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (V 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 131>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (V - 2) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 620
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (R - 2) (- - 1)
3 (- - 2) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (V 1 3) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STARTING>
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (L 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (L 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (L 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 3 5) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (L 3 5) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 3 5) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (U 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (R 6 5) (- 1 1) (- 3 2) (- 2 6)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (V 6 5) (- 1 1) (- 3 2) (- 2 6)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (- 3 2) (- 2 6)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (R - -) (- 3 2) (- 2 6)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (V - -) (- 3 2) (- 2 6)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (- 2 6)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (R 2 1) (- 2 6)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (V 2 1) (- 2 6)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V 1 5)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (R 1 5)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (V 1 5)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (D - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (V - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (D 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (D 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (D 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (V - 8)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (D - 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (V - 8)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (V - 7)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (L - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (V - 7)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (V 3 3) (V - 7)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (L 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (V 3 3) (- - 7)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (V 3 2) (V 3 3) (V - 7)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 4 -) (- 6 5) (L 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 4 -) (- 6 5) (V 3 2) (- 3 3) (- - 7)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 4 -) (L 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 4 -) (V 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 3 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (L 3 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (V 3 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (U 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (V 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (U 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 2 4) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (U 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 2 4) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (U 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (V 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 6 5) (V - -) (V 2 1) (V - 4)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 6 5) (- - -) (- 2 1) (- - 4)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 2 1) (V - 4)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (R 5 4) (- - -) (- 2 1) (- - 4)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (V 5 4) (- - -) (- 2 1) (- - 4)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 2 1) (V - 4)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (R - -) (- 2 1) (- - 4)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (V - -) (- 2 1) (- - 4)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 4)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (R 1 -) (- - 4)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (V 1 -) (- - 4)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 3)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (R - 3)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (V - 3)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 3 2)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (D - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (V - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 3 2)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (D 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (V 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- 1 3)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (D - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 3 3)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 7)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (D 2 2)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (- - 7)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 6)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (D - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (V - 6)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 2 -) (V 5 4) (V 3 2) (V 3 3) (V - 5)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (L - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- 2 -) (- 5 4) (- 3 2) (- 3 3) (V - 5)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 2 -) (V 5 4) (V 3 2) (V 2 2) (V - 5)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- 2 -) (- 5 4) (- 3 2) (L 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- 2 -) (- 5 4) (- 3 2) (V 2 2) (- - 5)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 2 -) (V 5 4) (V 2 1) (V 2 2) (V - 5)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- 2 -) (- 5 4) (L 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- 2 -) (- 5 4) (V 2 1) (- 2 2) (- - 5)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 2 -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- 2 -) (L 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- 2 -) (V 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V 1 -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (L 1 -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (V 1 -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (U - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 5 4) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (V - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (U 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V 1 3) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (U 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- 1 3) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (U - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (V - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 4) (V - -) (V 1 -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 5 4) (- - -) (- 1 -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V 1 -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 4 3) (- - -) (- 1 -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 4 3) (- - -) (- 1 -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V 1 -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (R - -) (- 1 -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (V - -) (- 1 -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (R - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (V - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 6 4) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (D - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (V - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 6 4) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (D 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (V 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (D 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (V 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 3 4) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 2 2) (V - 5)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (D 2 3) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (V 2 3) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (- 2 2) (- - 5)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V 1 1) (V - 5)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (D 1 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (V 1 1) (- - 5)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 4 3) (V 2 1) (V - -) (V - 5)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (L - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 4 3) (- 2 1) (V - -) (- - 5)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 4 3) (V 1 -) (V - -) (V - 5)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 4 3) (L 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 4 3) (V 1 -) (- - -) (- - 5)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (L 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (V 3 2) (- 1 -) (- - -) (- - 5)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (L - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (V - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 4 3) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (U - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 4 3) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (V - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 4 7) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (U 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 4 7) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (V 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 2) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (U 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 2) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (U - 1) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (V - 1) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 4 3) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (R - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (V - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 67>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 4 2) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (D - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (V - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 4 2) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (D 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (V 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 2 4) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (- 6 2) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (D 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (V 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 6 2) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V 1 -) (V - -) (V - 5)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (D 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (V 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (- 1 -) (- - -) (- - 5)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V - -) (V - -) (V - 5)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (D - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (V - -) (- - -) (- - 5)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 3 2) (V - -) (V - -) (V - 5)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (L - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 3 2) (V - -) (- - -) (- - 5)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (L 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (V 2 1) (- - -) (- - -) (- - 5)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (L - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (V - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 3 2) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (U - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 3 2) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (V - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 3 6) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (U 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 3 6) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (V 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - 1) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (U 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - 1) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (V 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (U - -) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (V - -) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 2 2) (V 3 1) (V 5 3) (V 2 1)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (R - -) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (V - -) (- 2 2) (- 3 1) (- 5 3) (- 2 1)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 3 1) (V 5 3) (V 2 1)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (R 1 1) (- 3 1) (- 5 3) (- 2 1)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (V 1 1) (- 3 1) (- 5 3) (- 2 1)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 2 -) (V 5 3) (V 2 1)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (R 2 -) (- 5 3) (- 2 1)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (V 2 -) (- 5 3) (- 2 1)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 2 -) (V 4 2) (V 2 1)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (- 2 -) (R 4 2) (- 2 1)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (- 2 -) (V 4 2) (- 2 1)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 2 -) (V 4 2) (V 1 -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (- 2 -) (- 4 2) (R 1 -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (- 2 -) (- 4 2) (V 1 -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 2 -) (V 4 2) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (- 2 -) (- 4 2) (D - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (- 2 -) (- 4 2) (V - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 2 -) (V 4 2) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (- 2 -) (- 4 2) (L - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (- 2 -) (- 4 2) (V - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 2 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (- 2 -) (L 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (- 2 -) (V 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V 1 1) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (L 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (- 1 1) (V 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (L - -) (- 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (V - -) (- 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (U - -) (- 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 2) (- - -) (- - -) (- - 2)
1 (- - -) (V - -) (- 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 1) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U 2 1) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 2 1) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (R - -) (- - -) (- - 2)
1 (- - -) (- - -) (- 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (V - -) (- - -) (- - 2)
1 (- - -) (- - -) (- 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V 1 -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (D - -) (- - -) (- - 2)
1 (- - -) (- - -) (- 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (V - -) (- - -) (- - 2)
1 (- - -) (- - -) (- 1 -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V 1 3) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (D - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (V - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- 1 3) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 5 1) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (D - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (V - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 5 1) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (D 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (V 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (- - -) (- - -) (- - 5)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (D - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (V - -) (- - -) (- - 5)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 5)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (L - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 2 1) (V - -) (- - -) (- - 5)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (L 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (V 1 -) (- - -) (- - -) (- - 5)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (L - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (V - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 2 1) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (U - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 2 1) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (V - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 2 5) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (U 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 2 5) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (V 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (U 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 3 1) (- - -)
2 (V 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (U - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (V - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (R - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (V - -) (- - -) (- - -) (- 3 1) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (R - -) (- - -) (- 3 1) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (V - -) (- - -) (- 3 1) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 3 1) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (R - -) (- 3 1) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (V - -) (- 3 1) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 2 -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (R 2 -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (V 2 -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 2 -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 2 -) (R - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 2 -) (V - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 2 -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 2 -) (D - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 2 -) (V - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 2 -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 2 -) (L - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- 2 -) (V - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (L 1 -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (V 1 -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (L - -) (- 1 -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (V - -) (- 1 -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (U - -) (- 1 -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (V - -) (- 1 -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 115>
SELECTED ACTION: Turn
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (R - -) (- 1 -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (V - -) (- 1 -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (R - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (V - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 3 4) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (D - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (V - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 3 4) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 2 3) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (D 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (V 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 2 3) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (D 1 2) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (V 1 2) (- 2 2)
4 (- - -) (- 1 -) (- - -) (- - -) (- - 5)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- 1 -) (- - -) (D - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- 1 -) (- - -) (V - -) (- - 5)
<STEP 121>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- 1 -) (- - -) (L - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- 1 -) (- - -) (V - -) (- - 5)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 5)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- 1 -) (L - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- 1 -) (V - -) (- - -) (- - 5)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (L - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (V - -) (- - -) (- - -) (- - 5)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (- 1 3) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (U - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- 1 3) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (V - -) (- - -) (- - -) (- - 5)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 2) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (U - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 7 4) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (V - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 6 3) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 2) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (U 6 3) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (V 6 3) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 6 3) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 2) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (U - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 6 3) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - 2)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 6 3) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 6 3) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 2) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 6 3) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 6 3) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 6 3) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 2) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 6 3) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 6 3) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 6 3) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 2) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 6 3) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 6 3) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 6 3) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 2) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (D - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 6 3) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 6 3) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 2) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (D 5 2) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (V 5 2) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 2) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (D - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (V - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (1, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (D - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (V - -) (- - -) (- - -) (- - 5)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (L - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (V - -) (- - -) (- - -) (- - 5)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (L - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (V - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V 1 -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (U - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- 1 -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (V - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (U - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- 1 4) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (V - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (U - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (U - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 142>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 5 2) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (D - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 5 2) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 4 1) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - 1) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (D 4 1) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (V 4 1) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - 1) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 4 1) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 4 1) (- - 2) (- 2 3) (- - 2)
3 (- - -) (D - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 4 1) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 4 1) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 4 1) (- - 2) (- 2 3) (- - 2)
3 (- - -) (L - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 4 1) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 4 1) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 4 1) (- - 2) (- 2 3) (- - 2)
3 (- - -) (U - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 4 1) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 3 -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (U 3 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (V 3 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 3 -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (U - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 3 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 3 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 3 -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (R - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 3 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 3 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 3 -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (D - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 3 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 3 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 2 -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (D 2 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (V 2 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 2 -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 2 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (D - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 2 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 2 -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 2 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (L - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 2 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 2 -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 2 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (U - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 2 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 1 -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (U 1 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (V 1 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 1 -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (U - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 1 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 1 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 1 -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (R - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 1 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 1 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V 1 -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (D - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 1 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 1 -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (D - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (V - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (D - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 164>
SELECTED ACTION: Turn
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (L - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (U - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 4 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (R - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 4 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 3 -) (V 1 2) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (R 3 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (V 3 -) (- 1 2) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 3 -) (V - 1) (V 2 2)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 3 -) (R - 1) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 3 -) (V - 1) (- 2 2)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 3 -) (V - 1) (V 1 1)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 3 -) (- - 1) (R 1 1)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 3 -) (- - 1) (V 1 1)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 3 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 3 -) (- - 1) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 3 -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 3 -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 3 -) (- - 1) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 3 -) (- - 1) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 3 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 3 -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 3 -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (L 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (V 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (L - -) (- 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (U - -) (- 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (R - -) (- 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (R 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (V 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 1 -) (R - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 1 -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 1 -) (D - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 1 -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 1 -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- 1 -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (L - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (L - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (V - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (U - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (V - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (R - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (V - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (R - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- - -) (R - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 2 3) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- - -) (U - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 2 3) (- - 2)
3 (- - -) (- - -) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 1 2) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (U 1 2) (- - 2)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (V 1 2) (- - 2)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 1 2) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (U - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 1 2) (- - 2)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (V - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 1 2) (- - 2)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 1 2) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (R - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 1 2) (- - 2)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (V - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 1 2) (- - 2)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V 1 2) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (D - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 1 2) (- - 2)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (V - -) (- - -)
2 (- - 3) (- - -) (- - 2) (- 1 2) (- - 2)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 2)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (V - -) (V - 2) (V - 1) (V - 2)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 5)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (D - 1) (- - 2)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 2)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- - -) (- - 2) (V - 1) (- - 2)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 5)
<STARTING>
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (L 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 6 4) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 5 3) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (L 5 3) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 5 3) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 4 2) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (L 4 2) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 4 2) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 3>
SELECTED ACTION: Stay
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 3 1) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (L 3 1) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 3 1) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 4>
SELECTED ACTION: Stay
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 2 -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (L 2 -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 2 -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 1 -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (L 1 -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V 1 -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 6>
SELECTED ACTION: Stay
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (L - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (- 5 3) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 4 2) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (L 4 2) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 4 2) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 3 1) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (L 3 1) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 3 1) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 2 -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (L 2 -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 2 -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 10>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 1 -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (L 1 -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V 1 -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (L - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (- 3 3) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V 2 2) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (L 2 2) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V 2 2) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 13>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V 1 1) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (L 1 1) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V 1 1) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 14>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (L - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- 4 6) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 3 5) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (L 3 5) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 3 5) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (U 2 4) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 2 4) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 1 3) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (U 1 3) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V 1 3) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (U - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 1) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 3 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 22>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 23>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 1 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 7 6) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 5) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 6 5) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 5) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 26>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 4) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 5 4) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 4) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 27>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 4 3) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 3) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 28>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 3 2) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 2) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 1) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 2 1) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 1) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 30>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 1) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- 1 1) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- 3 2) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- 3 2) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 2 1) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 2 1) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 2 1) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 1 -) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 35>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 321
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- 2 6)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- 2 6)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 1 5)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 325
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R 1 5)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 1 5)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 329
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (- 4 3)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 333
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (D 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 3 2)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 39>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 2 1)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 338
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (D 2 1)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 2 1)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 40>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 1 -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 343
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (D 1 -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V 1 -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 41>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 353
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (D - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- 2 4)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 357
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (D 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V 1 3)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 362
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (D - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (- 4 4)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 366
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (D 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 3 3)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 371
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (D 2 2)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 2 2)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 46>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 1 1)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 376
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (D 1 1)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V 1 1)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 381
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (D - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 48>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 380
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (L - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (- 3 4) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (V 2 3) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 384
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (- 6 2) (L 2 3) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (V 2 3) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (V 1 2) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 389
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (- 6 2) (L 1 2) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (V 1 2) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 51>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 394
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (- 6 2) (L - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (- 6 2) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 5 1) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 398
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (L 5 1) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 5 1) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 53>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 4 -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 403
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (L 4 -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 4 -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 54>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 3 -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 413
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (L 3 -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 3 -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 2 -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 423
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (L 2 -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 2 -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 56>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 1 -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 433
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (L 1 -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V 1 -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 443
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (- 1 3) (L - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (- 1 3) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 447
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- 6 5) (L - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (- 6 5) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 451
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (L 5 4) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 5 4) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 455
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (U 4 3) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 4 3) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 61>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 3 2) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 460
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (U 3 2) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 3 2) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 2 1) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 465
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (U 2 1) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 2 1) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 63>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 1 -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 470
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (U 1 -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V 1 -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 64>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 480
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (U - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (- 6 9) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 484
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (U 5 8) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 5 8) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 66>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 489
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (U 4 7) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 4 7) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 67>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 3 6) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 494
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (U 3 6) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 3 6) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 68>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 2 5) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 499
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (U 2 5) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 2 5) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 69>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 504
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (U 1 4) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V 1 4) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 70>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 509
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 2) (- - -) (- - -) (- - -) (- - -)
2 (U - 3) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 2) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 501
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (U - 1) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 498
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 1) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 73>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 497
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 1) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 496
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - 1) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - 1) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 488
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (D - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 3) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 3) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 480
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (D - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 477
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (D - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (- 4 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 3 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 486
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (D 3 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 3 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 2 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 495
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (L 2 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 2 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 80>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 1 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 504
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (U 1 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V 1 -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 81>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 514
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (U - -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 82>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
Agent performance: 513
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (R - -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (- 6 5) (- 4 3) (- 4 4) (- - 9)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 5 4) (- 4 3) (- 4 4) (- - 9)
Agent performance: 517
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (R 5 4) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 5 4) (- 4 3) (- 4 4) (- - 9)
<STEP 84>
SELECTED ACTION: Stay
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 4 3) (- 4 3) (- 4 4) (- - 9)
Agent performance: 522
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (R 4 3) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 4 3) (- 4 3) (- 4 4) (- - 9)
<STEP 85>
SELECTED ACTION: Stay
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 3 2) (- 4 3) (- 4 4) (- - 9)
Agent performance: 527
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (R 3 2) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 3 2) (- 4 3) (- 4 4) (- - 9)
<STEP 86>
SELECTED ACTION: Stay
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 2 1) (- 4 3) (- 4 4) (- - 9)
Agent performance: 532
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (R 2 1) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 2 1) (- 4 3) (- 4 4) (- - 9)
<STEP 87>
SELECTED ACTION: Stay
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 1 -) (- 4 3) (- 4 4) (- - 9)
Agent performance: 537
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (R 1 -) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V 1 -) (- 4 3) (- 4 4) (- - 9)
<STEP 88>
SELECTED ACTION: Stay
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (- 4 3) (- 4 4) (- - 9)
Agent performance: 547
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (R - -) (- 4 3) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (- 4 3) (- 4 4) (- - 9)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 3 2) (- 4 4) (- - 9)
Agent performance: 551
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (R 3 2) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 3 2) (- 4 4) (- - 9)
<STEP 90>
SELECTED ACTION: Stay
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 2 1) (- 4 4) (- - 9)
Agent performance: 556
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (R 2 1) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 2 1) (- 4 4) (- - 9)
<STEP 91>
SELECTED ACTION: Stay
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 1 -) (- 4 4) (- - 9)
Agent performance: 561
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (R 1 -) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V 1 -) (- 4 4) (- - 9)
<STEP 92>
SELECTED ACTION: Stay
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (- 4 4) (- - 9)
Agent performance: 571
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (R - -) (- 4 4) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (- 4 4) (- - 9)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 3 3) (- - 9)
Agent performance: 575
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (R 3 3) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 3 3) (- - 9)
<STEP 94>
SELECTED ACTION: Stay
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 2 2) (- - 9)
Agent performance: 580
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (R 2 2) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 2 2) (- - 9)
<STEP 95>
SELECTED ACTION: Stay
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 1) (- - 9)
Agent performance: 585
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (R 1 1) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 1) (- - 9)
<STEP 96>
SELECTED ACTION: Stay
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 590
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (R - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 589
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (D - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 588
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (L - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 587
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (- - 1) (- - -)
4 (- - -) (- - -) (- - -) (U - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 579
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- 4 5) (- - 2)
3 (- - -) (- - 2) (- - -) (U - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (- 4 5) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 583
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (U 3 4) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 3 4) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 102>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 2 3) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 588
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (U 2 3) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 2 3) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 103>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 1 2) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 593
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (U 1 2) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V 1 2) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 104>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 598
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (U - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 595
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (U - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 592
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 107>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 591
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 108>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 590
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 587
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (D - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 586
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (L - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 583
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (L - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 580
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (L - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 577
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (L - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 576
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (U - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 573
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 572
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 569
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 568
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 565
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (D - -) (- - -) (- - -) (- - -)
2 (- - 2) (- 7 4) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (- 7 4) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 6 3) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 569
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (D 6 3) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 6 3) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 121>
SELECTED ACTION: Stay
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 5 2) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 574
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (D 5 2) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 5 2) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 122>
SELECTED ACTION: Stay
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 4 1) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 579
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (D 4 1) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 4 1) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 123>
SELECTED ACTION: Stay
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 3 -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 584
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (D 3 -) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 3 -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 124>
SELECTED ACTION: Stay
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 2 -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 594
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (D 2 -) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 2 -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 125>
SELECTED ACTION: Stay
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 1 -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 604
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (D 1 -) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V 1 -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 126>
SELECTED ACTION: Stay
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 614
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (D - -) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 127>
SELECTED ACTION: Turn
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 613
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (L - -) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 612
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (U - -) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 611
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (R - -) (- 2 4) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (- 2 4) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (V 1 3) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 615
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- - -) (R 1 3) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (V 1 3) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
<STEP 131>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (V - 2) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
Agent performance: 620
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - 4)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - 2) (- - -) (R - 2) (- - 1) (- - 2)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - 4)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - 2) (V - -) (V - 2) (V - 1) (V - 2)
3 (V - -) (V - 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (- - 9)
125
<STARTING>
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 16 17) (- 27 18)
Agent performance: 100
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 16 17) (- 27 18)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 104
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 20 17) (- 16 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 22 26) (V 20 17) (- 16 17) (? ? ?)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 108
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 21 25) (- 20 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 25 20) (V 21 25) (- 20 17) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 24 19) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 112
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (L 24 19) (- 21 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 24 19) (- 21 25) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 116
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 23 18) (- 21 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 23 18) (- 21 25) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 120
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 16 14) (- 17 18)
4 (- 23 18) (- 21 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 16 14) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- 23 18) (- 21 25) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 124
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 22 20) (- 29 18)
3 (- 16 14) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 22 20) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 16 14) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 128
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 18 21) (- 19 27)
2 (- 22 20) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 18 21) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 22 20) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 14) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 132
PERCEPT
0 1
(A G T) (A G T)
0 (U 11 14) (- 17 24)
1 (- 18 21) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 14) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 21) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 136
PERCEPT
0 1
(A G T) (A G T)
0 (R 10 13) (- 17 24)
1 (- 18 21) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 21) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (- 26 18) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 140
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 10 13) (R 16 23) (- 26 18)
1 (- 18 21) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (V 16 23) (- 26 18) (? ? ?) (? ? ?)
1 (- 18 21) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 144
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 16 23) (R 25 17) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 16 23) (V 25 17) (- 15 17) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 148
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 25 17) (R 14 16) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 25 17) (V 14 16) (- 16 21)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 20 19)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 15 20)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 152
PERCEPT
3 4
(A G T) (A G T)
0 (- 14 16) (R 15 20)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 14 16) (V 15 20)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 20 19)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 156
PERCEPT
3 4
(A G T) (A G T)
0 (- 14 16) (D 14 19)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 14 16) (V 14 19)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 20 19)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 160
PERCEPT
3 4
(A G T) (A G T)
0 (- 14 16) (- 14 19)
1 (- 20 21) (D 19 18)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 14 16) (- 14 19)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 19 18)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 21 28)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 164
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 19 18)
2 (- 14 11) (D 20 27)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 19 18)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 20 27)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 168
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 20 27)
3 (- 18 21) (D 28 20)
4 (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 20 27)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 28 20)
4 (? ? ?) (? ? ?) (? ? ?) (- 16 17) (- 27 18)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (V 26 17)
Agent performance: 172
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 28 20)
4 (- 16 17) (D 26 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 28 20)
4 (? ? ?) (? ? ?) (? ? ?) (- 16 17) (V 26 17)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (V 25 16)
Agent performance: 176
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 28 20)
4 (- 16 17) (L 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 28 20)
4 (? ? ?) (? ? ?) (? ? ?) (- 16 17) (V 25 16)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 23 18) (V 21 25) (V 20 17) (V 15 16) (V 25 16)
Agent performance: 178
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 28 20)
4 (- 20 17) (L 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 28 20)
4 (? ? ?) (? ? ?) (- 20 17) (V 15 16) (- 25 16)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 23 18) (V 21 25) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 180
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 21 25) (L 19 16) (- 15 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 21 25) (V 19 16) (- 15 16) (? ? ?)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 23 18) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 182
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 16 14) (- 17 18) (- 15 20)
4 (- 23 18) (L 20 24) (- 19 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 16 14) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 23 18) (V 20 24) (- 19 16) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 22 17) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 184
PERCEPT
0 1
(A G T) (A G T)
3 (- 16 14) (- 17 18)
4 (L 22 17) (- 20 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 16 14) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 22 17) (- 20 24) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 188
PERCEPT
0 1
(A G T) (A G T)
3 (- 16 14) (- 17 18)
4 (U 21 16) (- 20 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 16 14) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 21 16) (- 20 24) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 190
PERCEPT
0 1
(A G T) (A G T)
2 (- 22 20) (- 29 18)
3 (U 15 13) (- 17 18)
4 (- 21 16) (- 20 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 22 20) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 15 13) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- 21 16) (- 20 24) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 192
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 21) (- 19 27)
2 (U 21 19) (- 29 18)
3 (- 15 13) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 21) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 21 19) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 15 13) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 194
PERCEPT
0 1
(A G T) (A G T)
0 (- 10 13) (- 16 23)
1 (U 17 20) (- 19 27)
2 (- 21 19) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (? ? ?) (? ? ?) (? ? ?)
1 (V 17 20) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 21 19) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 12) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 196
PERCEPT
0 1
(A G T) (A G T)
0 (U 9 12) (- 16 23)
1 (- 17 20) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 12) (- 16 23) (? ? ?) (? ? ?) (? ? ?)
1 (- 17 20) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 200
PERCEPT
0 1
(A G T) (A G T)
0 (R 8 11) (- 16 23)
1 (- 17 20) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (- 16 23) (? ? ?) (? ? ?) (? ? ?)
1 (- 17 20) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 25 17) (V 14 16) (V 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 202
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 8 11) (R 15 22) (- 25 17)
1 (- 17 20) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (V 15 22) (- 25 17) (? ? ?) (? ? ?)
1 (- 17 20) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 14 16) (V 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 204
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 15 22) (R 24 16) (- 14 16)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 15 22) (V 24 16) (- 14 16) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 206
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 24 16) (R 13 15) (- 14 19)
1 (- 13 24) (- 20 21) (- 19 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 24 16) (V 13 15) (- 14 19)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 19 18)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 13 18)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 208
PERCEPT
3 4
(A G T) (A G T)
0 (- 13 15) (R 13 18)
1 (- 20 21) (- 19 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 13 15) (V 13 18)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 19 18)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 212
PERCEPT
3 4
(A G T) (A G T)
0 (- 13 15) (D 12 17)
1 (- 20 21) (- 19 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 13 15) (V 12 17)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 19 18)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 214
PERCEPT
3 4
(A G T) (A G T)
0 (- 13 15) (- 12 17)
1 (- 20 21) (D 18 17)
2 (- 14 11) (- 20 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 13 15) (- 12 17)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 18 17)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 20 27)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 216
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 18 17)
2 (- 14 11) (D 19 26)
3 (- 18 21) (- 28 20)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 18 17)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 19 26)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 28 20)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 218
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 19 26)
3 (- 18 21) (D 27 19)
4 (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 19 26)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 27 19)
4 (? ? ?) (? ? ?) (? ? ?) (- 15 16) (- 25 16)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 24 15)
Agent performance: 220
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 27 19)
4 (- 15 16) (D 24 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 27 19)
4 (? ? ?) (? ? ?) (? ? ?) (- 15 16) (V 24 15)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 23 14)
Agent performance: 224
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 27 19)
4 (- 15 16) (L 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 27 19)
4 (? ? ?) (? ? ?) (? ? ?) (- 15 16) (V 23 14)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 21 16) (V 20 24) (V 19 16) (V 14 15) (V 23 14)
Agent performance: 226
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 27 19)
4 (- 19 16) (L 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 27 19)
4 (? ? ?) (? ? ?) (- 19 16) (V 14 15) (- 23 14)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 21 16) (V 20 24) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 228
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 20 24) (L 18 15) (- 14 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 20 24) (V 18 15) (- 14 15) (? ? ?)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 21 16) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 230
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 15 13) (- 17 18) (- 15 20)
4 (- 21 16) (L 19 23) (- 18 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 15 13) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 21 16) (V 19 23) (- 18 15) (? ? ?) (? ? ?)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 20 15) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 232
PERCEPT
0 1
(A G T) (A G T)
3 (- 15 13) (- 17 18)
4 (L 20 15) (- 19 23)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 15 13) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 20 15) (- 19 23) (? ? ?) (? ? ?) (? ? ?)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 236
PERCEPT
0 1
(A G T) (A G T)
3 (- 15 13) (- 17 18)
4 (U 19 14) (- 19 23)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 15 13) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 19 14) (- 19 23) (? ? ?) (? ? ?) (? ? ?)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 238
PERCEPT
0 1
(A G T) (A G T)
2 (- 21 19) (- 29 18)
3 (U 14 12) (- 17 18)
4 (- 19 14) (- 19 23)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 21 19) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 14 12) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- 19 14) (- 19 23) (? ? ?) (? ? ?) (? ? ?)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 240
PERCEPT
0 1
(A G T) (A G T)
1 (- 17 20) (- 19 27)
2 (U 20 18) (- 29 18)
3 (- 14 12) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 17 20) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 20 18) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 14 12) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 242
PERCEPT
0 1
(A G T) (A G T)
0 (- 8 11) (- 15 22)
1 (U 16 19) (- 19 27)
2 (- 20 18) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (? ? ?) (? ? ?) (? ? ?)
1 (V 16 19) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 20 18) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 10) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 244
PERCEPT
0 1
(A G T) (A G T)
0 (U 7 10) (- 15 22)
1 (- 16 19) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 10) (- 15 22) (? ? ?) (? ? ?) (? ? ?)
1 (- 16 19) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 248
PERCEPT
0 1
(A G T) (A G T)
0 (R 6 9) (- 15 22)
1 (- 16 19) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (- 15 22) (? ? ?) (? ? ?) (? ? ?)
1 (- 16 19) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 24 16) (V 13 15) (V 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 250
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 6 9) (R 14 21) (- 24 16)
1 (- 16 19) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (V 14 21) (- 24 16) (? ? ?) (? ? ?)
1 (- 16 19) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 13 15) (V 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 252
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 14 21) (R 23 15) (- 13 15)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 14 21) (V 23 15) (- 13 15) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 254
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 23 15) (R 12 14) (- 12 17)
1 (- 13 24) (- 20 21) (- 18 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 23 15) (V 12 14) (- 12 17)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 18 17)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 11 16)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 256
PERCEPT
3 4
(A G T) (A G T)
0 (- 12 14) (R 11 16)
1 (- 20 21) (- 18 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 12 14) (V 11 16)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 18 17)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 260
PERCEPT
3 4
(A G T) (A G T)
0 (- 12 14) (D 10 15)
1 (- 20 21) (- 18 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 12 14) (V 10 15)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 18 17)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 262
PERCEPT
3 4
(A G T) (A G T)
0 (- 12 14) (- 10 15)
1 (- 20 21) (D 17 16)
2 (- 14 11) (- 19 26)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 12 14) (- 10 15)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 17 16)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 19 26)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 264
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 17 16)
2 (- 14 11) (D 18 25)
3 (- 18 21) (- 27 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 17 16)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 18 25)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 27 19)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 266
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 18 25)
3 (- 18 21) (D 26 18)
4 (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 18 25)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 26 18)
4 (? ? ?) (? ? ?) (? ? ?) (- 14 15) (- 23 14)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 22 13)
Agent performance: 268
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 26 18)
4 (- 14 15) (D 22 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 26 18)
4 (? ? ?) (? ? ?) (? ? ?) (- 14 15) (V 22 13)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 21 12)
Agent performance: 272
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 26 18)
4 (- 14 15) (L 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 26 18)
4 (? ? ?) (? ? ?) (? ? ?) (- 14 15) (V 21 12)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 19 14) (V 19 23) (V 18 15) (V 13 14) (V 21 12)
Agent performance: 274
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 26 18)
4 (- 18 15) (L 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 26 18)
4 (? ? ?) (? ? ?) (- 18 15) (V 13 14) (- 21 12)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 19 14) (V 19 23) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 276
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 19 23) (L 17 14) (- 13 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 19 23) (V 17 14) (- 13 14) (? ? ?)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 19 14) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 278
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 14 12) (- 17 18) (- 15 20)
4 (- 19 14) (L 18 22) (- 17 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 14 12) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 19 14) (V 18 22) (- 17 14) (? ? ?) (? ? ?)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 18 13) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 280
PERCEPT
0 1
(A G T) (A G T)
3 (- 14 12) (- 17 18)
4 (L 18 13) (- 18 22)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 14 12) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 18 13) (- 18 22) (? ? ?) (? ? ?) (? ? ?)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 284
PERCEPT
0 1
(A G T) (A G T)
3 (- 14 12) (- 17 18)
4 (U 17 12) (- 18 22)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 14 12) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 17 12) (- 18 22) (? ? ?) (? ? ?) (? ? ?)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 286
PERCEPT
0 1
(A G T) (A G T)
2 (- 20 18) (- 29 18)
3 (U 13 11) (- 17 18)
4 (- 17 12) (- 18 22)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 20 18) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 13 11) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- 17 12) (- 18 22) (? ? ?) (? ? ?) (? ? ?)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 288
PERCEPT
0 1
(A G T) (A G T)
1 (- 16 19) (- 19 27)
2 (U 19 17) (- 29 18)
3 (- 13 11) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 16 19) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 19 17) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 13 11) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 290
PERCEPT
0 1
(A G T) (A G T)
0 (- 6 9) (- 14 21)
1 (U 15 18) (- 19 27)
2 (- 19 17) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (? ? ?) (? ? ?) (? ? ?)
1 (V 15 18) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 19 17) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 8) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 292
PERCEPT
0 1
(A G T) (A G T)
0 (U 5 8) (- 14 21)
1 (- 15 18) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 8) (- 14 21) (? ? ?) (? ? ?) (? ? ?)
1 (- 15 18) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 296
PERCEPT
0 1
(A G T) (A G T)
0 (R 4 7) (- 14 21)
1 (- 15 18) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (- 14 21) (? ? ?) (? ? ?) (? ? ?)
1 (- 15 18) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 23 15) (V 12 14) (V 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 298
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 4 7) (R 13 20) (- 23 15)
1 (- 15 18) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (V 13 20) (- 23 15) (? ? ?) (? ? ?)
1 (- 15 18) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 12 14) (V 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 300
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 13 20) (R 22 14) (- 12 14)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 13 20) (V 22 14) (- 12 14) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 302
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 22 14) (R 11 13) (- 10 15)
1 (- 13 24) (- 20 21) (- 17 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 22 14) (V 11 13) (- 10 15)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 17 16)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 9 14)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 304
PERCEPT
3 4
(A G T) (A G T)
0 (- 11 13) (R 9 14)
1 (- 20 21) (- 17 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 11 13) (V 9 14)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 17 16)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 308
PERCEPT
3 4
(A G T) (A G T)
0 (- 11 13) (D 8 13)
1 (- 20 21) (- 17 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 11 13) (V 8 13)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 17 16)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 310
PERCEPT
3 4
(A G T) (A G T)
0 (- 11 13) (- 8 13)
1 (- 20 21) (D 16 15)
2 (- 14 11) (- 18 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 11 13) (- 8 13)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 16 15)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 18 25)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 312
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 16 15)
2 (- 14 11) (D 17 24)
3 (- 18 21) (- 26 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 16 15)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 17 24)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 26 18)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 314
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 17 24)
3 (- 18 21) (D 25 17)
4 (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 17 24)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 25 17)
4 (? ? ?) (? ? ?) (? ? ?) (- 13 14) (- 21 12)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 20 11)
Agent performance: 316
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 25 17)
4 (- 13 14) (D 20 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 25 17)
4 (? ? ?) (? ? ?) (? ? ?) (- 13 14) (V 20 11)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 19 10)
Agent performance: 320
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 25 17)
4 (- 13 14) (L 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 25 17)
4 (? ? ?) (? ? ?) (? ? ?) (- 13 14) (V 19 10)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 17 12) (V 18 22) (V 17 14) (V 12 13) (V 19 10)
Agent performance: 322
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 25 17)
4 (- 17 14) (L 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 25 17)
4 (? ? ?) (? ? ?) (- 17 14) (V 12 13) (- 19 10)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 17 12) (V 18 22) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 324
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 18 22) (L 16 13) (- 12 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 18 22) (V 16 13) (- 12 13) (? ? ?)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 17 12) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 326
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 13 11) (- 17 18) (- 15 20)
4 (- 17 12) (L 17 21) (- 16 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 13 11) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 17 12) (V 17 21) (- 16 13) (? ? ?) (? ? ?)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 16 11) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 328
PERCEPT
0 1
(A G T) (A G T)
3 (- 13 11) (- 17 18)
4 (L 16 11) (- 17 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 13 11) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 16 11) (- 17 21) (? ? ?) (? ? ?) (? ? ?)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 332
PERCEPT
0 1
(A G T) (A G T)
3 (- 13 11) (- 17 18)
4 (U 15 10) (- 17 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 13 11) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 15 10) (- 17 21) (? ? ?) (? ? ?) (? ? ?)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 334
PERCEPT
0 1
(A G T) (A G T)
2 (- 19 17) (- 29 18)
3 (U 12 10) (- 17 18)
4 (- 15 10) (- 17 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 19 17) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 12 10) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- 15 10) (- 17 21) (? ? ?) (? ? ?) (? ? ?)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 336
PERCEPT
0 1
(A G T) (A G T)
1 (- 15 18) (- 19 27)
2 (U 18 16) (- 29 18)
3 (- 12 10) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 15 18) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 18 16) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 12 10) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 338
PERCEPT
0 1
(A G T) (A G T)
0 (- 4 7) (- 13 20)
1 (U 14 17) (- 19 27)
2 (- 18 16) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (? ? ?) (? ? ?) (? ? ?)
1 (V 14 17) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 18 16) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 6) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 340
PERCEPT
0 1
(A G T) (A G T)
0 (U 3 6) (- 13 20)
1 (- 14 17) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 6) (- 13 20) (? ? ?) (? ? ?) (? ? ?)
1 (- 14 17) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 344
PERCEPT
0 1
(A G T) (A G T)
0 (R 2 5) (- 13 20)
1 (- 14 17) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (- 13 20) (? ? ?) (? ? ?) (? ? ?)
1 (- 14 17) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 22 14) (V 11 13) (V 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 346
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 2 5) (R 12 19) (- 22 14)
1 (- 14 17) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (V 12 19) (- 22 14) (? ? ?) (? ? ?)
1 (- 14 17) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 11 13) (V 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 348
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 12 19) (R 21 13) (- 11 13)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 12 19) (V 21 13) (- 11 13) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 350
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 21 13) (R 10 12) (- 8 13)
1 (- 13 24) (- 20 21) (- 16 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 21 13) (V 10 12) (- 8 13)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 16 15)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 7 12)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 352
PERCEPT
3 4
(A G T) (A G T)
0 (- 10 12) (R 7 12)
1 (- 20 21) (- 16 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 10 12) (V 7 12)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 16 15)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 356
PERCEPT
3 4
(A G T) (A G T)
0 (- 10 12) (D 6 11)
1 (- 20 21) (- 16 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 10 12) (V 6 11)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 16 15)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 358
PERCEPT
3 4
(A G T) (A G T)
0 (- 10 12) (- 6 11)
1 (- 20 21) (D 15 14)
2 (- 14 11) (- 17 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 10 12) (- 6 11)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 15 14)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 17 24)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 360
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 15 14)
2 (- 14 11) (D 16 23)
3 (- 18 21) (- 25 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 15 14)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 16 23)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 25 17)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 362
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 16 23)
3 (- 18 21) (D 24 16)
4 (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 16 23)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 24 16)
4 (? ? ?) (? ? ?) (? ? ?) (- 12 13) (- 19 10)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 18 9)
Agent performance: 364
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 24 16)
4 (- 12 13) (D 18 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 24 16)
4 (? ? ?) (? ? ?) (? ? ?) (- 12 13) (V 18 9)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 17 8)
Agent performance: 368
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 24 16)
4 (- 12 13) (L 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 24 16)
4 (? ? ?) (? ? ?) (? ? ?) (- 12 13) (V 17 8)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 15 10) (V 17 21) (V 16 13) (V 11 12) (V 17 8)
Agent performance: 370
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 24 16)
4 (- 16 13) (L 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 24 16)
4 (? ? ?) (? ? ?) (- 16 13) (V 11 12) (- 17 8)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 15 10) (V 17 21) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 372
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 17 21) (L 15 12) (- 11 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 17 21) (V 15 12) (- 11 12) (? ? ?)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 15 10) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 374
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 12 10) (- 17 18) (- 15 20)
4 (- 15 10) (L 16 20) (- 15 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 12 10) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 15 10) (V 16 20) (- 15 12) (? ? ?) (? ? ?)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 14 9) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 376
PERCEPT
0 1
(A G T) (A G T)
3 (- 12 10) (- 17 18)
4 (L 14 9) (- 16 20)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 12 10) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 14 9) (- 16 20) (? ? ?) (? ? ?) (? ? ?)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 380
PERCEPT
0 1
(A G T) (A G T)
3 (- 12 10) (- 17 18)
4 (U 13 8) (- 16 20)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 12 10) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 13 8) (- 16 20) (? ? ?) (? ? ?) (? ? ?)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 382
PERCEPT
0 1
(A G T) (A G T)
2 (- 18 16) (- 29 18)
3 (U 11 9) (- 17 18)
4 (- 13 8) (- 16 20)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 18 16) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 11 9) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- 13 8) (- 16 20) (? ? ?) (? ? ?) (? ? ?)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 384
PERCEPT
0 1
(A G T) (A G T)
1 (- 14 17) (- 19 27)
2 (U 17 15) (- 29 18)
3 (- 11 9) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 14 17) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 17 15) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 11 9) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 386
PERCEPT
0 1
(A G T) (A G T)
0 (- 2 5) (- 12 19)
1 (U 13 16) (- 19 27)
2 (- 17 15) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (? ? ?) (? ? ?) (? ? ?)
1 (V 13 16) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 17 15) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 4) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 388
PERCEPT
0 1
(A G T) (A G T)
0 (U 1 4) (- 12 19)
1 (- 13 16) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 4) (- 12 19) (? ? ?) (? ? ?) (? ? ?)
1 (- 13 16) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 109>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 392
PERCEPT
0 1
(A G T) (A G T)
0 (R - 3) (- 12 19)
1 (- 13 16) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (- 12 19) (? ? ?) (? ? ?) (? ? ?)
1 (- 13 16) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 21 13) (V 10 12) (V 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 394
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 11 18) (- 21 13)
1 (- 13 16) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (V 11 18) (- 21 13) (? ? ?) (? ? ?)
1 (- 13 16) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 10 12) (V 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 396
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 11 18) (R 20 12) (- 10 12)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 11 18) (V 20 12) (- 10 12) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 398
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 20 12) (R 9 11) (- 6 11)
1 (- 13 24) (- 20 21) (- 15 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 20 12) (V 9 11) (- 6 11)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 15 14)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 5 10)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 400
PERCEPT
3 4
(A G T) (A G T)
0 (- 9 11) (R 5 10)
1 (- 20 21) (- 15 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 9 11) (V 5 10)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 15 14)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 404
PERCEPT
3 4
(A G T) (A G T)
0 (- 9 11) (D 4 9)
1 (- 20 21) (- 15 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 9 11) (V 4 9)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 15 14)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 406
PERCEPT
3 4
(A G T) (A G T)
0 (- 9 11) (- 4 9)
1 (- 20 21) (D 14 13)
2 (- 14 11) (- 16 23)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 9 11) (- 4 9)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 14 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 16 23)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 408
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 14 13)
2 (- 14 11) (D 15 22)
3 (- 18 21) (- 24 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 14 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 15 22)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 24 16)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 410
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 15 22)
3 (- 18 21) (D 23 15)
4 (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 15 22)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 23 15)
4 (? ? ?) (? ? ?) (? ? ?) (- 11 12) (- 17 8)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 16 7)
Agent performance: 412
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 23 15)
4 (- 11 12) (D 16 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 23 15)
4 (? ? ?) (? ? ?) (? ? ?) (- 11 12) (V 16 7)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 15 6)
Agent performance: 416
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 23 15)
4 (- 11 12) (L 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 23 15)
4 (? ? ?) (? ? ?) (? ? ?) (- 11 12) (V 15 6)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 13 8) (V 16 20) (V 15 12) (V 10 11) (V 15 6)
Agent performance: 418
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 23 15)
4 (- 15 12) (L 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 23 15)
4 (? ? ?) (? ? ?) (- 15 12) (V 10 11) (- 15 6)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 13 8) (V 16 20) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 420
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 16 20) (L 14 11) (- 10 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 16 20) (V 14 11) (- 10 11) (? ? ?)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 13 8) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 422
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 11 9) (- 17 18) (- 15 20)
4 (- 13 8) (L 15 19) (- 14 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 11 9) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 13 8) (V 15 19) (- 14 11) (? ? ?) (? ? ?)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 12 7) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 424
PERCEPT
0 1
(A G T) (A G T)
3 (- 11 9) (- 17 18)
4 (L 12 7) (- 15 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 11 9) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 12 7) (- 15 19) (? ? ?) (? ? ?) (? ? ?)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 428
PERCEPT
0 1
(A G T) (A G T)
3 (- 11 9) (- 17 18)
4 (U 11 6) (- 15 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 11 9) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 11 6) (- 15 19) (? ? ?) (? ? ?) (? ? ?)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 430
PERCEPT
0 1
(A G T) (A G T)
2 (- 17 15) (- 29 18)
3 (U 10 8) (- 17 18)
4 (- 11 6) (- 15 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 17 15) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 10 8) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- 11 6) (- 15 19) (? ? ?) (? ? ?) (? ? ?)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 432
PERCEPT
0 1
(A G T) (A G T)
1 (- 13 16) (- 19 27)
2 (U 16 14) (- 29 18)
3 (- 10 8) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 13 16) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 16 14) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 10 8) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 434
PERCEPT
0 1
(A G T) (A G T)
0 (- - 3) (- 11 18)
1 (U 12 15) (- 19 27)
2 (- 16 14) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (? ? ?) (? ? ?) (? ? ?)
1 (V 12 15) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 16 14) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 426
PERCEPT
0 1
(A G T) (A G T)
0 (U - 2) (- 11 18)
1 (- 12 15) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- 11 18) (? ? ?) (? ? ?) (? ? ?)
1 (- 12 15) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 420
PERCEPT
0 1
(A G T) (A G T)
0 (R - 1) (- 11 18)
1 (- 12 15) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (- 11 18) (? ? ?) (? ? ?) (? ? ?)
1 (- 12 15) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 20 12) (V 9 11) (V 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 422
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 1) (R 10 17) (- 20 12)
1 (- 12 15) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (V 10 17) (- 20 12) (? ? ?) (? ? ?)
1 (- 12 15) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 9 11) (V 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 424
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 10 17) (R 19 11) (- 9 11)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 10 17) (V 19 11) (- 9 11) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 426
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 19 11) (R 8 10) (- 4 9)
1 (- 13 24) (- 20 21) (- 14 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 19 11) (V 8 10) (- 4 9)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 14 13)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 3 8)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 428
PERCEPT
3 4
(A G T) (A G T)
0 (- 8 10) (R 3 8)
1 (- 20 21) (- 14 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 8 10) (V 3 8)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 14 13)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 432
PERCEPT
3 4
(A G T) (A G T)
0 (- 8 10) (D 2 7)
1 (- 20 21) (- 14 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 8 10) (V 2 7)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 14 13)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 434
PERCEPT
3 4
(A G T) (A G T)
0 (- 8 10) (- 2 7)
1 (- 20 21) (D 13 12)
2 (- 14 11) (- 15 22)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 8 10) (- 2 7)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 13 12)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 15 22)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 436
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 13 12)
2 (- 14 11) (D 14 21)
3 (- 18 21) (- 23 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 13 12)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 14 21)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 23 15)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 438
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 14 21)
3 (- 18 21) (D 22 14)
4 (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 14 21)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 22 14)
4 (? ? ?) (? ? ?) (? ? ?) (- 10 11) (- 15 6)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 14 5)
Agent performance: 440
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 22 14)
4 (- 10 11) (D 14 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 22 14)
4 (? ? ?) (? ? ?) (? ? ?) (- 10 11) (V 14 5)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 13 4)
Agent performance: 444
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 22 14)
4 (- 10 11) (L 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 22 14)
4 (? ? ?) (? ? ?) (? ? ?) (- 10 11) (V 13 4)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 11 6) (V 15 19) (V 14 11) (V 9 10) (V 13 4)
Agent performance: 446
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 22 14)
4 (- 14 11) (L 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 22 14)
4 (? ? ?) (? ? ?) (- 14 11) (V 9 10) (- 13 4)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 11 6) (V 15 19) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 448
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 15 19) (L 13 10) (- 9 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 15 19) (V 13 10) (- 9 10) (? ? ?)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 11 6) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 450
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 10 8) (- 17 18) (- 15 20)
4 (- 11 6) (L 14 18) (- 13 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 10 8) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 11 6) (V 14 18) (- 13 10) (? ? ?) (? ? ?)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 10 5) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 452
PERCEPT
0 1
(A G T) (A G T)
3 (- 10 8) (- 17 18)
4 (L 10 5) (- 14 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 10 8) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 10 5) (- 14 18) (? ? ?) (? ? ?) (? ? ?)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 456
PERCEPT
0 1
(A G T) (A G T)
3 (- 10 8) (- 17 18)
4 (U 9 4) (- 14 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 10 8) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 9 4) (- 14 18) (? ? ?) (? ? ?) (? ? ?)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 458
PERCEPT
0 1
(A G T) (A G T)
2 (- 16 14) (- 29 18)
3 (U 9 7) (- 17 18)
4 (- 9 4) (- 14 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 16 14) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 9 7) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- 9 4) (- 14 18) (? ? ?) (? ? ?) (? ? ?)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 460
PERCEPT
0 1
(A G T) (A G T)
1 (- 12 15) (- 19 27)
2 (U 15 13) (- 29 18)
3 (- 9 7) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 12 15) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 15 13) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 9 7) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 462
PERCEPT
0 1
(A G T) (A G T)
0 (- - 1) (- 10 17)
1 (U 11 14) (- 19 27)
2 (- 15 13) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (? ? ?) (? ? ?) (? ? ?)
1 (V 11 14) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 15 13) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 454
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 10 17)
1 (- 11 14) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 10 17) (? ? ?) (? ? ?) (? ? ?)
1 (- 11 14) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 453
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 10 17)
1 (- 11 14) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 10 17) (? ? ?) (? ? ?) (? ? ?)
1 (- 11 14) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 19 11) (V 8 10) (V 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 455
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 9 16) (- 19 11)
1 (- 11 14) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 9 16) (- 19 11) (? ? ?) (? ? ?)
1 (- 11 14) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 8 10) (V 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 457
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 9 16) (R 18 10) (- 8 10)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 9 16) (V 18 10) (- 8 10) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 459
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 18 10) (R 7 9) (- 2 7)
1 (- 13 24) (- 20 21) (- 13 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 18 10) (V 7 9) (- 2 7)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 13 12)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V 1 6)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 461
PERCEPT
3 4
(A G T) (A G T)
0 (- 7 9) (R 1 6)
1 (- 20 21) (- 13 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 7 9) (V 1 6)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 13 12)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 465
PERCEPT
3 4
(A G T) (A G T)
0 (- 7 9) (D - 5)
1 (- 20 21) (- 13 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 7 9) (V - 5)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 13 12)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 467
PERCEPT
3 4
(A G T) (A G T)
0 (- 7 9) (- - 5)
1 (- 20 21) (D 12 11)
2 (- 14 11) (- 14 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 7 9) (- - 5)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 12 11)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 14 21)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 469
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 12 11)
2 (- 14 11) (D 13 20)
3 (- 18 21) (- 22 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 12 11)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 13 20)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 22 14)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 471
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 13 20)
3 (- 18 21) (D 21 13)
4 (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 13 20)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 21 13)
4 (? ? ?) (? ? ?) (? ? ?) (- 9 10) (- 13 4)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 12 3)
Agent performance: 473
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 21 13)
4 (- 9 10) (D 12 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 21 13)
4 (? ? ?) (? ? ?) (? ? ?) (- 9 10) (V 12 3)
<STEP 159>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 11 2)
Agent performance: 477
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 21 13)
4 (- 9 10) (L 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 21 13)
4 (? ? ?) (? ? ?) (? ? ?) (- 9 10) (V 11 2)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 9 4) (V 14 18) (V 13 10) (V 8 9) (V 11 2)
Agent performance: 479
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 21 13)
4 (- 13 10) (L 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 21 13)
4 (? ? ?) (? ? ?) (- 13 10) (V 8 9) (- 11 2)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 9 4) (V 14 18) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 481
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 14 18) (L 12 9) (- 8 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 14 18) (V 12 9) (- 8 9) (? ? ?)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 9 4) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 483
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 7) (- 17 18) (- 15 20)
4 (- 9 4) (L 13 17) (- 12 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 9 7) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 9 4) (V 13 17) (- 12 9) (? ? ?) (? ? ?)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 8 3) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 485
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 7) (- 17 18)
4 (L 8 3) (- 13 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 9 7) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 8 3) (- 13 17) (? ? ?) (? ? ?) (? ? ?)
<STEP 164>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 489
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 7) (- 17 18)
4 (U 7 2) (- 13 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 9 7) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 7 2) (- 13 17) (? ? ?) (? ? ?) (? ? ?)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 491
PERCEPT
0 1
(A G T) (A G T)
2 (- 15 13) (- 29 18)
3 (U 8 6) (- 17 18)
4 (- 7 2) (- 13 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 15 13) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 8 6) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- 7 2) (- 13 17) (? ? ?) (? ? ?) (? ? ?)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 493
PERCEPT
0 1
(A G T) (A G T)
1 (- 11 14) (- 19 27)
2 (U 14 12) (- 29 18)
3 (- 8 6) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 11 14) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 14 12) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 8 6) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 495
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 9 16)
1 (U 10 13) (- 19 27)
2 (- 14 12) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (? ? ?) (? ? ?) (? ? ?)
1 (V 10 13) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 14 12) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 492
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 9 16)
1 (- 10 13) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 9 16) (? ? ?) (? ? ?) (? ? ?)
1 (- 10 13) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 491
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 9 16)
1 (- 10 13) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 9 16) (? ? ?) (? ? ?) (? ? ?)
1 (- 10 13) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 18 10) (V 7 9) (V - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 493
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 8 15) (- 18 10)
1 (- 10 13) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 8 15) (- 18 10) (? ? ?) (? ? ?)
1 (- 10 13) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 171>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 7 9) (V - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 495
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 8 15) (R 17 9) (- 7 9)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 8 15) (V 17 9) (- 7 9) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 497
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 17 9) (R 6 8) (- - 5)
1 (- 13 24) (- 20 21) (- 12 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 17 9) (V 6 8) (- - 5)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 12 11)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 4)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 489
PERCEPT
3 4
(A G T) (A G T)
0 (- 6 8) (R - 4)
1 (- 20 21) (- 12 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 6 8) (V - 4)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 12 11)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 483
PERCEPT
3 4
(A G T) (A G T)
0 (- 6 8) (D - 3)
1 (- 20 21) (- 12 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 6 8) (V - 3)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 12 11)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 485
PERCEPT
3 4
(A G T) (A G T)
0 (- 6 8) (- - 3)
1 (- 20 21) (D 11 10)
2 (- 14 11) (- 13 20)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 6 8) (- - 3)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 11 10)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 13 20)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 487
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 11 10)
2 (- 14 11) (D 12 19)
3 (- 18 21) (- 21 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 11 10)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 12 19)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 21 13)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 489
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 12 19)
3 (- 18 21) (D 20 12)
4 (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 12 19)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 20 12)
4 (? ? ?) (? ? ?) (? ? ?) (- 8 9) (- 11 2)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 10 1)
Agent performance: 491
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 20 12)
4 (- 8 9) (D 10 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 20 12)
4 (? ? ?) (? ? ?) (? ? ?) (- 8 9) (V 10 1)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 9 -)
Agent performance: 495
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 20 12)
4 (- 8 9) (L 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 20 12)
4 (? ? ?) (? ? ?) (? ? ?) (- 8 9) (V 9 -)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 7 2) (V 13 17) (V 12 9) (V 7 8) (V 9 -)
Agent performance: 497
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 20 12)
4 (- 12 9) (L 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 20 12)
4 (? ? ?) (? ? ?) (- 12 9) (V 7 8) (- 9 -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 7 2) (V 13 17) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 499
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 13 17) (L 11 8) (- 7 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 13 17) (V 11 8) (- 7 8) (? ? ?)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 7 2) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 501
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 8 6) (- 17 18) (- 15 20)
4 (- 7 2) (L 12 16) (- 11 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 8 6) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 7 2) (V 12 16) (- 11 8) (? ? ?) (? ? ?)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 6 1) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 503
PERCEPT
0 1
(A G T) (A G T)
3 (- 8 6) (- 17 18)
4 (L 6 1) (- 12 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 8 6) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 6 1) (- 12 16) (? ? ?) (? ? ?) (? ? ?)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 507
PERCEPT
0 1
(A G T) (A G T)
3 (- 8 6) (- 17 18)
4 (U 5 -) (- 12 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 8 6) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 5 -) (- 12 16) (? ? ?) (? ? ?) (? ? ?)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 509
PERCEPT
0 1
(A G T) (A G T)
2 (- 14 12) (- 29 18)
3 (U 7 5) (- 17 18)
4 (- 5 -) (- 12 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 14 12) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 7 5) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- 5 -) (- 12 16) (? ? ?) (? ? ?) (? ? ?)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 511
PERCEPT
0 1
(A G T) (A G T)
1 (- 10 13) (- 19 27)
2 (U 13 11) (- 29 18)
3 (- 7 5) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 10 13) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 13 11) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 7 5) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 513
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 8 15)
1 (U 9 12) (- 19 27)
2 (- 13 11) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (? ? ?) (? ? ?) (? ? ?)
1 (V 9 12) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 13 11) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 510
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 8 15)
1 (- 9 12) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 8 15) (? ? ?) (? ? ?) (? ? ?)
1 (- 9 12) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 509
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 8 15)
1 (- 9 12) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 8 15) (? ? ?) (? ? ?) (? ? ?)
1 (- 9 12) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 17 9) (V 6 8) (V - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 511
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 7 14) (- 17 9)
1 (- 9 12) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 7 14) (- 17 9) (? ? ?) (? ? ?)
1 (- 9 12) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 6 8) (V - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 513
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 7 14) (R 16 8) (- 6 8)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 7 14) (V 16 8) (- 6 8) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 515
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 16 8) (R 5 7) (- - 3)
1 (- 13 24) (- 20 21) (- 11 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 16 8) (V 5 7) (- - 3)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 11 10)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 2)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 507
PERCEPT
3 4
(A G T) (A G T)
0 (- 5 7) (R - 2)
1 (- 20 21) (- 11 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 5 7) (V - 2)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 11 10)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 501
PERCEPT
3 4
(A G T) (A G T)
0 (- 5 7) (D - 1)
1 (- 20 21) (- 11 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 5 7) (V - 1)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 11 10)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 503
PERCEPT
3 4
(A G T) (A G T)
0 (- 5 7) (- - 1)
1 (- 20 21) (D 10 9)
2 (- 14 11) (- 12 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 5 7) (- - 1)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 10 9)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 12 19)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 505
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 10 9)
2 (- 14 11) (D 11 18)
3 (- 18 21) (- 20 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 10 9)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 11 18)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 20 12)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 507
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 11 18)
3 (- 18 21) (D 19 11)
4 (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 11 18)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 19 11)
4 (? ? ?) (? ? ?) (? ? ?) (- 7 8) (- 9 -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 8 -)
Agent performance: 514
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 19 11)
4 (- 7 8) (D 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 19 11)
4 (? ? ?) (? ? ?) (? ? ?) (- 7 8) (V 8 -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 7 -)
Agent performance: 523
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 19 11)
4 (- 7 8) (L 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 19 11)
4 (? ? ?) (? ? ?) (? ? ?) (- 7 8) (V 7 -)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 5 -) (V 12 16) (V 11 8) (V 6 7) (V 7 -)
Agent performance: 525
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 19 11)
4 (- 11 8) (L 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 19 11)
4 (? ? ?) (? ? ?) (- 11 8) (V 6 7) (- 7 -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 5 -) (V 12 16) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 527
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 12 16) (L 10 7) (- 6 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 12 16) (V 10 7) (- 6 7) (? ? ?)
<STEP 202>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 5 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 529
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 7 5) (- 17 18) (- 15 20)
4 (- 5 -) (L 11 15) (- 10 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 7 5) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 5 -) (V 11 15) (- 10 7) (? ? ?) (? ? ?)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 4 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 536
PERCEPT
0 1
(A G T) (A G T)
3 (- 7 5) (- 17 18)
4 (L 4 -) (- 11 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 7 5) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 4 -) (- 11 15) (? ? ?) (? ? ?) (? ? ?)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 545
PERCEPT
0 1
(A G T) (A G T)
3 (- 7 5) (- 17 18)
4 (U 3 -) (- 11 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 7 5) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 3 -) (- 11 15) (? ? ?) (? ? ?) (? ? ?)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 547
PERCEPT
0 1
(A G T) (A G T)
2 (- 13 11) (- 29 18)
3 (U 6 4) (- 17 18)
4 (- 3 -) (- 11 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 13 11) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 6 4) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- 3 -) (- 11 15) (? ? ?) (? ? ?) (? ? ?)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 549
PERCEPT
0 1
(A G T) (A G T)
1 (- 9 12) (- 19 27)
2 (U 12 10) (- 29 18)
3 (- 6 4) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 9 12) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 12 10) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 6 4) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 207>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 551
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 7 14)
1 (U 8 11) (- 19 27)
2 (- 12 10) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (? ? ?) (? ? ?) (? ? ?)
1 (V 8 11) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 12 10) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 548
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 7 14)
1 (- 8 11) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 7 14) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 11) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 547
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 7 14)
1 (- 8 11) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 7 14) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 11) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 16 8) (V 5 7) (V - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 549
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 6 13) (- 16 8)
1 (- 8 11) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 6 13) (- 16 8) (? ? ?) (? ? ?)
1 (- 8 11) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 211>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 5 7) (V - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 551
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 6 13) (R 15 7) (- 5 7)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 6 13) (V 15 7) (- 5 7) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 553
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 15 7) (R 4 6) (- - 1)
1 (- 13 24) (- 20 21) (- 10 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 15 7) (V 4 6) (- - 1)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 10 9)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 545
PERCEPT
3 4
(A G T) (A G T)
0 (- 4 6) (R - -)
1 (- 20 21) (- 10 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 4 6) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 10 9)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 544
PERCEPT
3 4
(A G T) (A G T)
0 (- 4 6) (D - -)
1 (- 20 21) (- 10 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 4 6) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 10 9)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 546
PERCEPT
3 4
(A G T) (A G T)
0 (- 4 6) (- - -)
1 (- 20 21) (D 9 8)
2 (- 14 11) (- 11 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 4 6) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 9 8)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 11 18)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 216>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 548
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 9 8)
2 (- 14 11) (D 10 17)
3 (- 18 21) (- 19 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 9 8)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 10 17)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 19 11)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 550
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 10 17)
3 (- 18 21) (D 18 10)
4 (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 10 17)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 18 10)
4 (? ? ?) (? ? ?) (? ? ?) (- 6 7) (- 7 -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 6 -)
Agent performance: 557
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 18 10)
4 (- 6 7) (D 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 18 10)
4 (? ? ?) (? ? ?) (? ? ?) (- 6 7) (V 6 -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 5 -)
Agent performance: 566
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 18 10)
4 (- 6 7) (L 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 18 10)
4 (? ? ?) (? ? ?) (? ? ?) (- 6 7) (V 5 -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 3 -) (V 11 15) (V 10 7) (V 5 6) (V 5 -)
Agent performance: 568
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 18 10)
4 (- 10 7) (L 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 18 10)
4 (? ? ?) (? ? ?) (- 10 7) (V 5 6) (- 5 -)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 3 -) (V 11 15) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 570
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 11 15) (L 9 6) (- 5 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 11 15) (V 9 6) (- 5 6) (? ? ?)
<STEP 222>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 3 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 572
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 6 4) (- 17 18) (- 15 20)
4 (- 3 -) (L 10 14) (- 9 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 6 4) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 3 -) (V 10 14) (- 9 6) (? ? ?) (? ? ?)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 2 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 579
PERCEPT
0 1
(A G T) (A G T)
3 (- 6 4) (- 17 18)
4 (L 2 -) (- 10 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 6 4) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 2 -) (- 10 14) (? ? ?) (? ? ?) (? ? ?)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 588
PERCEPT
0 1
(A G T) (A G T)
3 (- 6 4) (- 17 18)
4 (U 1 -) (- 10 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 6 4) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V 1 -) (- 10 14) (? ? ?) (? ? ?) (? ? ?)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 590
PERCEPT
0 1
(A G T) (A G T)
2 (- 12 10) (- 29 18)
3 (U 5 3) (- 17 18)
4 (- 1 -) (- 10 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 12 10) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 5 3) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- 1 -) (- 10 14) (? ? ?) (? ? ?) (? ? ?)
<STEP 226>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 592
PERCEPT
0 1
(A G T) (A G T)
1 (- 8 11) (- 19 27)
2 (U 11 9) (- 29 18)
3 (- 5 3) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 11) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 11 9) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 3) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 227>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 594
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 6 13)
1 (U 7 10) (- 19 27)
2 (- 11 9) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (? ? ?) (? ? ?) (? ? ?)
1 (V 7 10) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 11 9) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 228>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 591
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 6 13)
1 (- 7 10) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 6 13) (? ? ?) (? ? ?) (? ? ?)
1 (- 7 10) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 590
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 6 13)
1 (- 7 10) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 6 13) (? ? ?) (? ? ?) (? ? ?)
1 (- 7 10) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 15 7) (V 4 6) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 592
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 5 12) (- 15 7)
1 (- 7 10) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 5 12) (- 15 7) (? ? ?) (? ? ?)
1 (- 7 10) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 231>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 4 6) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 594
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 5 12) (R 14 6) (- 4 6)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 5 12) (V 14 6) (- 4 6) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 232>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 596
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 14 6) (R 3 5) (- - -)
1 (- 13 24) (- 20 21) (- 9 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 14 6) (V 3 5) (- - -)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 9 8)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 593
PERCEPT
3 4
(A G T) (A G T)
0 (- 3 5) (R - -)
1 (- 20 21) (- 9 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 3 5) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 9 8)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 592
PERCEPT
3 4
(A G T) (A G T)
0 (- 3 5) (D - -)
1 (- 20 21) (- 9 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 3 5) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 9 8)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 235>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 594
PERCEPT
3 4
(A G T) (A G T)
0 (- 3 5) (- - -)
1 (- 20 21) (D 8 7)
2 (- 14 11) (- 10 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 3 5) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 8 7)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 10 17)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 596
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 8 7)
2 (- 14 11) (D 9 16)
3 (- 18 21) (- 18 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 8 7)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 9 16)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 18 10)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 237>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 598
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 9 16)
3 (- 18 21) (D 17 9)
4 (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 9 16)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 17 9)
4 (? ? ?) (? ? ?) (? ? ?) (- 5 6) (- 5 -)
<STEP 238>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 4 -)
Agent performance: 605
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 17 9)
4 (- 5 6) (D 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 17 9)
4 (? ? ?) (? ? ?) (? ? ?) (- 5 6) (V 4 -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 3 -)
Agent performance: 614
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 17 9)
4 (- 5 6) (L 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 17 9)
4 (? ? ?) (? ? ?) (? ? ?) (- 5 6) (V 3 -)
<STEP 240>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V 1 -) (V 10 14) (V 9 6) (V 4 5) (V 3 -)
Agent performance: 616
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 17 9)
4 (- 9 6) (L 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 17 9)
4 (? ? ?) (? ? ?) (- 9 6) (V 4 5) (- 3 -)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V 1 -) (V 10 14) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 618
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 10 14) (L 8 5) (- 4 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 10 14) (V 8 5) (- 4 5) (? ? ?)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V 1 -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 620
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 5 3) (- 17 18) (- 15 20)
4 (- 1 -) (L 9 13) (- 8 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 3) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- 1 -) (V 9 13) (- 8 5) (? ? ?) (? ? ?)
<STEP 243>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 627
PERCEPT
0 1
(A G T) (A G T)
3 (- 5 3) (- 17 18)
4 (L - -) (- 9 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 3) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 9 13) (? ? ?) (? ? ?) (? ? ?)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 626
PERCEPT
0 1
(A G T) (A G T)
3 (- 5 3) (- 17 18)
4 (U - -) (- 9 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 3) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 9 13) (? ? ?) (? ? ?) (? ? ?)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 628
PERCEPT
0 1
(A G T) (A G T)
2 (- 11 9) (- 29 18)
3 (U 4 2) (- 17 18)
4 (- - -) (- 9 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 11 9) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 4 2) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 9 13) (? ? ?) (? ? ?) (? ? ?)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 630
PERCEPT
0 1
(A G T) (A G T)
1 (- 7 10) (- 19 27)
2 (U 10 8) (- 29 18)
3 (- 4 2) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 7 10) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 10 8) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 2) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 247>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 632
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 5 12)
1 (U 6 9) (- 19 27)
2 (- 10 8) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (? ? ?) (? ? ?) (? ? ?)
1 (V 6 9) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 10 8) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 629
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 5 12)
1 (- 6 9) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 5 12) (? ? ?) (? ? ?) (? ? ?)
1 (- 6 9) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 628
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 5 12)
1 (- 6 9) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 5 12) (? ? ?) (? ? ?) (? ? ?)
1 (- 6 9) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 250>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 14 6) (V 3 5) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 630
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 4 11) (- 14 6)
1 (- 6 9) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 4 11) (- 14 6) (? ? ?) (? ? ?)
1 (- 6 9) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 3 5) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 632
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 4 11) (R 13 5) (- 3 5)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 4 11) (V 13 5) (- 3 5) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 634
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 13 5) (R 2 4) (- - -)
1 (- 13 24) (- 20 21) (- 8 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 13 5) (V 2 4) (- - -)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 8 7)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 253>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 631
PERCEPT
3 4
(A G T) (A G T)
0 (- 2 4) (R - -)
1 (- 20 21) (- 8 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 2 4) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 8 7)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 630
PERCEPT
3 4
(A G T) (A G T)
0 (- 2 4) (D - -)
1 (- 20 21) (- 8 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 2 4) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 8 7)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 255>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 632
PERCEPT
3 4
(A G T) (A G T)
0 (- 2 4) (- - -)
1 (- 20 21) (D 7 6)
2 (- 14 11) (- 9 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 2 4) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 7 6)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 9 16)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 634
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 7 6)
2 (- 14 11) (D 8 15)
3 (- 18 21) (- 17 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 7 6)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 8 15)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 17 9)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 636
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 8 15)
3 (- 18 21) (D 16 8)
4 (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 8 15)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 16 8)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 5) (- 3 -)
<STEP 258>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 2 -)
Agent performance: 643
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 16 8)
4 (- 4 5) (D 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 16 8)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 5) (V 2 -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 1 -)
Agent performance: 652
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 16 8)
4 (- 4 5) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 16 8)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 5) (V 1 -)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 9 13) (V 8 5) (V 3 4) (V 1 -)
Agent performance: 654
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 16 8)
4 (- 8 5) (L 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 16 8)
4 (? ? ?) (? ? ?) (- 8 5) (V 3 4) (- 1 -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 9 13) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 656
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 9 13) (L 7 4) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 9 13) (V 7 4) (- 3 4) (? ? ?)
<STEP 262>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 658
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 4 2) (- 17 18) (- 15 20)
4 (- - -) (L 8 12) (- 7 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 2) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- - -) (V 8 12) (- 7 4) (? ? ?) (? ? ?)
<STEP 263>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 655
PERCEPT
0 1
(A G T) (A G T)
3 (- 4 2) (- 17 18)
4 (L - -) (- 8 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 2) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 8 12) (? ? ?) (? ? ?) (? ? ?)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 654
PERCEPT
0 1
(A G T) (A G T)
3 (- 4 2) (- 17 18)
4 (U - -) (- 8 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 2) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 8 12) (? ? ?) (? ? ?) (? ? ?)
<STEP 265>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 656
PERCEPT
0 1
(A G T) (A G T)
2 (- 10 8) (- 29 18)
3 (U 3 1) (- 17 18)
4 (- - -) (- 8 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 10 8) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 3 1) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 8 12) (? ? ?) (? ? ?) (? ? ?)
<STEP 266>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 658
PERCEPT
0 1
(A G T) (A G T)
1 (- 6 9) (- 19 27)
2 (U 9 7) (- 29 18)
3 (- 3 1) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 6 9) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 9 7) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 1) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 660
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 4 11)
1 (U 5 8) (- 19 27)
2 (- 9 7) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (? ? ?) (? ? ?) (? ? ?)
1 (V 5 8) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 9 7) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 657
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 4 11)
1 (- 5 8) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 4 11) (? ? ?) (? ? ?) (? ? ?)
1 (- 5 8) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 656
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 4 11)
1 (- 5 8) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 4 11) (? ? ?) (? ? ?) (? ? ?)
1 (- 5 8) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 13 5) (V 2 4) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 658
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 3 10) (- 13 5)
1 (- 5 8) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 3 10) (- 13 5) (? ? ?) (? ? ?)
1 (- 5 8) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 271>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 2 4) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 660
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 3 10) (R 12 4) (- 2 4)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 3 10) (V 12 4) (- 2 4) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 662
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 12 4) (R 1 3) (- - -)
1 (- 13 24) (- 20 21) (- 7 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 12 4) (V 1 3) (- - -)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 7 6)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 659
PERCEPT
3 4
(A G T) (A G T)
0 (- 1 3) (R - -)
1 (- 20 21) (- 7 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 1 3) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 7 6)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 658
PERCEPT
3 4
(A G T) (A G T)
0 (- 1 3) (D - -)
1 (- 20 21) (- 7 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 1 3) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 7 6)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 275>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 660
PERCEPT
3 4
(A G T) (A G T)
0 (- 1 3) (- - -)
1 (- 20 21) (D 6 5)
2 (- 14 11) (- 8 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 1 3) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 6 5)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 8 15)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 662
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 6 5)
2 (- 14 11) (D 7 14)
3 (- 18 21) (- 16 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 6 5)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 7 14)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 16 8)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 664
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 7 14)
3 (- 18 21) (D 15 7)
4 (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 7 14)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 15 7)
4 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (- 1 -)
<STEP 278>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V - -)
Agent performance: 671
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 15 7)
4 (- 3 4) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 15 7)
4 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (V - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V - -)
Agent performance: 670
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 15 7)
4 (- 3 4) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 15 7)
4 (? ? ?) (? ? ?) (? ? ?) (- 3 4) (V - -)
<STEP 280>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 8 12) (V 7 4) (V 2 3) (V - -)
Agent performance: 672
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 15 7)
4 (- 7 4) (L 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 15 7)
4 (? ? ?) (? ? ?) (- 7 4) (V 2 3) (- - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 8 12) (V 6 3) (V 2 3) (V - -)
Agent performance: 674
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 8 12) (L 6 3) (- 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 8 12) (V 6 3) (- 2 3) (? ? ?)
<STEP 282>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 676
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 3 1) (- 17 18) (- 15 20)
4 (- - -) (L 7 11) (- 6 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 1) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- - -) (V 7 11) (- 6 3) (? ? ?) (? ? ?)
<STEP 283>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 673
PERCEPT
0 1
(A G T) (A G T)
3 (- 3 1) (- 17 18)
4 (L - -) (- 7 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 1) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 7 11) (? ? ?) (? ? ?) (? ? ?)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 672
PERCEPT
0 1
(A G T) (A G T)
3 (- 3 1) (- 17 18)
4 (U - -) (- 7 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 1) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 7 11) (? ? ?) (? ? ?) (? ? ?)
<STEP 285>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 674
PERCEPT
0 1
(A G T) (A G T)
2 (- 9 7) (- 29 18)
3 (U 2 -) (- 17 18)
4 (- - -) (- 7 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 9 7) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 2 -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 7 11) (? ? ?) (? ? ?) (? ? ?)
<STEP 286>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 676
PERCEPT
0 1
(A G T) (A G T)
1 (- 5 8) (- 19 27)
2 (U 8 6) (- 29 18)
3 (- 2 -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 5 8) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 8 6) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 2 -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 678
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 3 10)
1 (U 4 7) (- 19 27)
2 (- 8 6) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (? ? ?) (? ? ?) (? ? ?)
1 (V 4 7) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 8 6) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 675
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 3 10)
1 (- 4 7) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 10) (? ? ?) (? ? ?) (? ? ?)
1 (- 4 7) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 674
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 3 10)
1 (- 4 7) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 10) (? ? ?) (? ? ?) (? ? ?)
1 (- 4 7) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 12 4) (V 1 3) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 676
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 2 9) (- 12 4)
1 (- 4 7) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 2 9) (- 12 4) (? ? ?) (? ? ?)
1 (- 4 7) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 291>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V 1 3) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 678
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 2 9) (R 11 3) (- 1 3)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 2 9) (V 11 3) (- 1 3) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 680
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 11 3) (R - 2) (- - -)
1 (- 13 24) (- 20 21) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 11 3) (V - 2) (- - -)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 6 5)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 677
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (R - -)
1 (- 20 21) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 2) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 6 5)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 676
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D - -)
1 (- 20 21) (- 6 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 2) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 6 5)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 295>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 678
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - -)
1 (- 20 21) (D 5 4)
2 (- 14 11) (- 7 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 2) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 5 4)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 7 14)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 296>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 680
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 5 4)
2 (- 14 11) (D 6 13)
3 (- 18 21) (- 15 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 5 4)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 6 13)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 15 7)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 682
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 6 13)
3 (- 18 21) (D 14 6)
4 (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 6 13)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 14 6)
4 (? ? ?) (? ? ?) (? ? ?) (- 2 3) (- - -)
<STEP 298>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 679
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 14 6)
4 (- 2 3) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 14 6)
4 (? ? ?) (? ? ?) (? ? ?) (- 2 3) (V - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 678
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 14 6)
4 (- 2 3) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 14 6)
4 (? ? ?) (? ? ?) (? ? ?) (- 2 3) (V - -)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 7 11) (V 6 3) (V 1 2) (V - -)
Agent performance: 680
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 14 6)
4 (- 6 3) (L 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 14 6)
4 (? ? ?) (? ? ?) (- 6 3) (V 1 2) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 7 11) (V 5 2) (V 1 2) (V - -)
Agent performance: 682
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 7 11) (L 5 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 7 11) (V 5 2) (- 1 2) (? ? ?)
<STEP 302>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 684
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 2 -) (- 17 18) (- 15 20)
4 (- - -) (L 6 10) (- 5 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 2 -) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- - -) (V 6 10) (- 5 2) (? ? ?) (? ? ?)
<STEP 303>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 681
PERCEPT
0 1
(A G T) (A G T)
3 (- 2 -) (- 17 18)
4 (L - -) (- 6 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 2 -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 6 10) (? ? ?) (? ? ?) (? ? ?)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 680
PERCEPT
0 1
(A G T) (A G T)
3 (- 2 -) (- 17 18)
4 (U - -) (- 6 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 2 -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 6 10) (? ? ?) (? ? ?) (? ? ?)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 687
PERCEPT
0 1
(A G T) (A G T)
2 (- 8 6) (- 29 18)
3 (U 1 -) (- 17 18)
4 (- - -) (- 6 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 8 6) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 1 -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 6 10) (? ? ?) (? ? ?) (? ? ?)
<STEP 306>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 689
PERCEPT
0 1
(A G T) (A G T)
1 (- 4 7) (- 19 27)
2 (U 7 5) (- 29 18)
3 (- 1 -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 4 7) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 7 5) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 307>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 691
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 2 9)
1 (U 3 6) (- 19 27)
2 (- 7 5) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (? ? ?) (? ? ?) (? ? ?)
1 (V 3 6) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 7 5) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 308>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 688
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 2 9)
1 (- 3 6) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 2 9) (? ? ?) (? ? ?) (? ? ?)
1 (- 3 6) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 687
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 2 9)
1 (- 3 6) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 2 9) (? ? ?) (? ? ?) (? ? ?)
1 (- 3 6) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 11 3) (V - 2) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 689
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 1 8) (- 11 3)
1 (- 3 6) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 1 8) (- 11 3) (? ? ?) (? ? ?)
1 (- 3 6) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 311>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 2) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 691
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 8) (R 10 2) (- - 2)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 8) (V 10 2) (- - 2) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 683
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 10 2) (R - 1) (- - -)
1 (- 13 24) (- 20 21) (- 5 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 10 2) (V - 1) (- - -)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 5 4)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 313>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 680
PERCEPT
3 4
(A G T) (A G T)
0 (- - 1) (R - -)
1 (- 20 21) (- 5 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 5 4)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 679
PERCEPT
3 4
(A G T) (A G T)
0 (- - 1) (D - -)
1 (- 20 21) (- 5 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 5 4)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 681
PERCEPT
3 4
(A G T) (A G T)
0 (- - 1) (- - -)
1 (- 20 21) (D 4 3)
2 (- 14 11) (- 6 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (V 4 3)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 6 13)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 316>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 683
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- 4 3)
2 (- 14 11) (D 5 12)
3 (- 18 21) (- 14 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 20 21) (- 4 3)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (V 5 12)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 14 6)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 685
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- 5 12)
3 (- 18 21) (D 13 5)
4 (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 14 11) (- 5 12)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (V 13 5)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 2) (- - -)
<STEP 318>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 682
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 13 5)
4 (- 1 2) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 13 5)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 2) (V - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 681
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- 13 5)
4 (- 1 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 18 21) (- 13 5)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 2) (V - -)
<STEP 320>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 6 10) (V 5 2) (V - 1) (V - -)
Agent performance: 683
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 13 5)
4 (- 5 2) (L - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 13 5)
4 (? ? ?) (? ? ?) (- 5 2) (V - 1) (- - -)
<STEP 321>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 6 10) (V 4 1) (V - 1) (V - -)
Agent performance: 685
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 6 10) (L 4 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (? ? ?)
4 (? ? ?) (- 6 10) (V 4 1) (- - 1) (? ? ?)
<STEP 322>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 687
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 1 -) (- 17 18) (- 15 20)
4 (- - -) (L 5 9) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- - -) (V 5 9) (- 4 1) (? ? ?) (? ? ?)
<STEP 323>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 684
PERCEPT
0 1
(A G T) (A G T)
3 (- 1 -) (- 17 18)
4 (L - -) (- 5 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 5 9) (? ? ?) (? ? ?) (? ? ?)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 683
PERCEPT
0 1
(A G T) (A G T)
3 (- 1 -) (- 17 18)
4 (U - -) (- 5 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 5 9) (? ? ?) (? ? ?) (? ? ?)
<STEP 325>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 690
PERCEPT
0 1
(A G T) (A G T)
2 (- 7 5) (- 29 18)
3 (U - -) (- 17 18)
4 (- - -) (- 5 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 7 5) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 5 9) (? ? ?) (? ? ?) (? ? ?)
<STEP 326>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 692
PERCEPT
0 1
(A G T) (A G T)
1 (- 3 6) (- 19 27)
2 (U 6 4) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 3 6) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 6 4) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 327>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 694
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 1 8)
1 (U 2 5) (- 19 27)
2 (- 6 4) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (? ? ?) (? ? ?) (? ? ?)
1 (V 2 5) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 6 4) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 328>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 691
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 1 8)
1 (- 2 5) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 8) (? ? ?) (? ? ?) (? ? ?)
1 (- 2 5) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 690
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 1 8)
1 (- 2 5) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 8) (? ? ?) (? ? ?) (? ? ?)
1 (- 2 5) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 330>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 10 2) (V - 1) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 692
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - 7) (- 10 2)
1 (- 2 5) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 7) (- 10 2) (? ? ?) (? ? ?)
1 (- 2 5) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 331>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - 1) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 694
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 9 1) (- - 1)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 7) (V 9 1) (- - 1) (? ? ?)
1 (? ? ?) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 332>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 686
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 9 1) (R - -) (- - -)
1 (- 13 24) (- 20 21) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 9 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 4 3)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 685
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 9 1) (D - -) (- - -)
1 (- 13 24) (- 20 21) (- 4 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 9 1) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 13 24) (- 20 21) (- 4 3)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 334>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 689
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 9 1) (- - -) (- - -)
1 (- 13 24) (D 19 20) (- 4 3)
2 (- 29 20) (- 14 11) (- 5 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 9 1) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 13 24) (V 19 20) (- 4 3)
2 (? ? ?) (? ? ?) (- 29 20) (- 14 11) (- 5 12)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 335>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 693
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 19 20) (- 4 3)
2 (- 29 20) (D 13 10) (- 5 12)
3 (- 15 20) (- 18 21) (- 13 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 13 24) (- 19 20) (- 4 3)
2 (? ? ?) (? ? ?) (- 29 20) (V 13 10) (- 5 12)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 13 5)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 336>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 697
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 13 10) (- 5 12)
3 (- 15 20) (D 17 20) (- 13 5)
4 (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- 29 20) (- 13 10) (- 5 12)
3 (? ? ?) (? ? ?) (- 15 20) (V 17 20) (- 13 5)
4 (? ? ?) (? ? ?) (- 4 1) (- - 1) (- - -)
<STEP 337>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - -) (V - -)
Agent performance: 689
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 17 20) (- 13 5)
4 (- 4 1) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 17 20) (- 13 5)
4 (? ? ?) (? ? ?) (- 4 1) (V - -) (- - -)
<STEP 338>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - -) (V - -)
Agent performance: 688
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 17 20) (- 13 5)
4 (- 4 1) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 17 20) (- 13 5)
4 (? ? ?) (? ? ?) (- 4 1) (V - -) (- - -)
<STEP 339>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 5 9) (V 3 -) (V - -) (V - -)
Agent performance: 690
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 17 20)
4 (- 5 9) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 17 20) (? ? ?)
4 (? ? ?) (- 5 9) (V 3 -) (- - -) (? ? ?)
<STEP 340>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 692
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 17 18) (- 15 20)
4 (- - -) (L 4 8) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- - -) (V 4 8) (- 3 -) (? ? ?) (? ? ?)
<STEP 341>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 689
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 17 18)
4 (L - -) (- 4 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 4 8) (? ? ?) (? ? ?) (? ? ?)
<STEP 342>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 688
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 17 18)
4 (U - -) (- 4 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 4 8) (? ? ?) (? ? ?) (? ? ?)
<STEP 343>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 687
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 17 18)
4 (R - -) (- 4 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 4 8) (? ? ?) (? ? ?) (? ? ?)
<STEP 344>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 3 7) (V 3 -) (V - -) (V - -)
Agent performance: 689
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 17 18) (- 15 20)
4 (- - -) (R 3 7) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- - -) (V 3 7) (- 3 -) (? ? ?) (? ? ?)
<STEP 345>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 696
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 17 20)
4 (- 3 7) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 17 20) (? ? ?)
4 (? ? ?) (- 3 7) (V 2 -) (- - -) (? ? ?)
<STEP 346>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 693
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 17 20) (- 13 5)
4 (- 2 -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 17 20) (- 13 5)
4 (? ? ?) (? ? ?) (- 2 -) (V - -) (- - -)
<STEP 347>
SELECTED ACTION: Turn
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 692
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 17 20) (- 13 5)
4 (- 2 -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 17 20) (- 13 5)
4 (? ? ?) (? ? ?) (- 2 -) (V - -) (- - -)
<STEP 348>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 691
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 17 20) (- 13 5)
4 (- 2 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 17 20) (- 13 5)
4 (? ? ?) (? ? ?) (- 2 -) (V - -) (- - -)
<STEP 349>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 3 7) (V 1 -) (V - -) (V - -)
Agent performance: 698
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 17 20)
4 (- 3 7) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 17 20) (? ? ?)
4 (? ? ?) (- 3 7) (V 1 -) (- - -) (? ? ?)
<STEP 350>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 700
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 17 18) (- 15 20)
4 (- - -) (L 2 6) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- - -) (V 2 6) (- 1 -) (? ? ?) (? ? ?)
<STEP 351>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 697
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 17 18)
4 (L - -) (- 2 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 2 6) (? ? ?) (? ? ?) (? ? ?)
<STEP 352>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 696
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 17 18)
4 (U - -) (- 2 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 2 6) (? ? ?) (? ? ?) (? ? ?)
<STEP 353>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 695
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 17 18)
4 (R - -) (- 2 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 2 6) (? ? ?) (? ? ?) (? ? ?)
<STEP 354>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 1 5) (V 1 -) (V - -) (V - -)
Agent performance: 697
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 17 18) (- 15 20)
4 (- - -) (R 1 5) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- - -) (V 1 5) (- 1 -) (? ? ?) (? ? ?)
<STEP 355>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 704
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 17 20)
4 (- 1 5) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 17 20) (? ? ?)
4 (? ? ?) (- 1 5) (V - -) (- - -) (? ? ?)
<STEP 356>
SELECTED ACTION: Turn
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 703
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 17 20)
4 (- 1 5) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 17 20) (? ? ?)
4 (? ? ?) (- 1 5) (V - -) (- - -) (? ? ?)
<STEP 357>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 702
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 17 20)
4 (- 1 5) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 17 20) (? ? ?)
4 (? ? ?) (- 1 5) (V - -) (- - -) (? ? ?)
<STEP 358>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 704
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 17 18) (- 15 20)
4 (- - -) (L - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (- 15 20) (? ? ?) (? ? ?)
4 (- - -) (V - 4) (- - -) (? ? ?) (? ? ?)
<STEP 359>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 701
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 17 18)
4 (L - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - 4) (? ? ?) (? ? ?) (? ? ?)
<STEP 360>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 700
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 17 18)
4 (U - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- - 4) (? ? ?) (? ? ?) (? ? ?)
<STEP 361>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 697
PERCEPT
0 1
(A G T) (A G T)
2 (- 6 4) (- 29 18)
3 (U - -) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 6 4) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - 4) (? ? ?) (? ? ?) (? ? ?)
<STEP 362>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 699
PERCEPT
0 1
(A G T) (A G T)
1 (- 2 5) (- 19 27)
2 (U 5 3) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 2 5) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 5 3) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 363>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 701
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - 7)
1 (U 1 4) (- 19 27)
2 (- 5 3) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (V 1 4) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 3) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 364>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 698
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- 1 4) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 4) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 365>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 697
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- 1 4) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 4) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 366>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 696
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- 1 4) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 4) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 367>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 698
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - 7)
1 (D - 3) (- 19 27)
2 (- 5 3) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 3) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 368>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 700
PERCEPT
0 1
(A G T) (A G T)
1 (- - 3) (- 19 27)
2 (D 4 2) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 4 2) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 369>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 697
PERCEPT
0 1
(A G T) (A G T)
2 (- 4 2) (- 29 18)
3 (D - -) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 4 2) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - 4) (? ? ?) (? ? ?) (? ? ?)
<STEP 370>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 696
PERCEPT
0 1
(A G T) (A G T)
2 (- 4 2) (- 29 18)
3 (L - -) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 4 2) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - 4) (? ? ?) (? ? ?) (? ? ?)
<STEP 371>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 695
PERCEPT
0 1
(A G T) (A G T)
2 (- 4 2) (- 29 18)
3 (U - -) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 4 2) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - 4) (? ? ?) (? ? ?) (? ? ?)
<STEP 372>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 697
PERCEPT
0 1
(A G T) (A G T)
1 (- - 3) (- 19 27)
2 (U 3 1) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 3 1) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 18) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 373>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 689
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - 7)
1 (U - 2) (- 19 27)
2 (- 3 1) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (V - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (- 3 1) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 374>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 686
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 375>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 685
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 376>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 684
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 377>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 683
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 378>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 682
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 379>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 681
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 380>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 680
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 381>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 679
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 382>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 678
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 383>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 677
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 384>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 676
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 385>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 675
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 386>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 674
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 387>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 673
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 388>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 672
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 389>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 671
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 390>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 670
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 391>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 669
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 392>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 668
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 393>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 667
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 394>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 666
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 395>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 665
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 396>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 664
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 397>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 663
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 398>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 662
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 399>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 661
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 400>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 401>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 402>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 403>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 404>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 405>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 406>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 654
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 407>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 408>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 652
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 409>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 651
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 410>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 411>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 649
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 412>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 648
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 413>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 414>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 646
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 415>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 645
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 416>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 644
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 417>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 643
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 418>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 642
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 419>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 641
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 420>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 640
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 421>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 639
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 422>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 638
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 423>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 637
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 424>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 636
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 425>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 635
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 426>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 634
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 427>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 633
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 428>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 632
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 429>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 631
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 430>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 630
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 431>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 629
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 432>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 628
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 433>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 627
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 434>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 626
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 435>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 625
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 436>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 624
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 437>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 623
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 438>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 622
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 439>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 621
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 440>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 620
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 441>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 619
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 442>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 618
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 443>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 617
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 444>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 616
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 445>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 615
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 446>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 614
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 447>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 613
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 448>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 612
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 449>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 611
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 450>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 610
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 451>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 609
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 452>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 608
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 453>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 607
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 454>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 606
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 455>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 605
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 456>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 604
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 457>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 603
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 458>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 602
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 459>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 601
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 460>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 600
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 461>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 599
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 462>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 598
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 463>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 597
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 464>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 596
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 465>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 595
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 466>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 594
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 467>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 593
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 468>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 592
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 469>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 591
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 470>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 590
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 471>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 589
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 472>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 588
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 473>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 587
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 474>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 586
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 475>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 585
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 476>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 584
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 477>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 583
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 478>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 582
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 479>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 581
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 480>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 580
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 481>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 579
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 482>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 578
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 483>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 577
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 484>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 576
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 485>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 575
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 486>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 574
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 487>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 573
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 488>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 572
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 489>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 571
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 490>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 570
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 491>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 569
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 492>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 568
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 493>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 567
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 494>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 566
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 495>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 565
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 496>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 564
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 497>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 563
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 498>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 562
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 499>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 561
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 500>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 560
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 501>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 559
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 502>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 558
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 503>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 557
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 504>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 556
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 505>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 555
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 506>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 554
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 507>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 553
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 508>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 552
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 509>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 551
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 510>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 550
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 511>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 549
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 512>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 548
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 513>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 547
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 514>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 546
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 515>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 545
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 516>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 544
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 517>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 543
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 518>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 542
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 519>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 541
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 520>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 540
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 521>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 539
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 522>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 538
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 523>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 537
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 524>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 536
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 525>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 535
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 526>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 534
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 527>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 533
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 528>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 532
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 529>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 531
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 530>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 530
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 531>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 529
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 532>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 528
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 533>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 527
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 534>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 526
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 535>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 525
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 536>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 524
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 537>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 523
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 538>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 522
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 539>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 521
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 540>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 520
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 541>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 519
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 542>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 518
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 543>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 517
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 544>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 516
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 545>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 515
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 546>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 514
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 547>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 513
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 548>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 512
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 549>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 511
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 550>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 510
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 551>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 509
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 552>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 508
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 553>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 507
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 554>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 506
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 555>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 505
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 556>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 504
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 557>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 503
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 558>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 502
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 559>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 501
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 560>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 500
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 561>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 499
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 562>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 498
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 563>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 497
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 564>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 496
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 565>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 495
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 566>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 494
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 567>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 493
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 568>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 492
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 569>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 491
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 570>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 490
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 571>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 489
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 572>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 488
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 573>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 487
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 574>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 486
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 575>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 485
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 576>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 484
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 577>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 483
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 578>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 482
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 579>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 481
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 580>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 480
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 581>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 479
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 582>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 478
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 583>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 477
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 584>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 476
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 585>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 475
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 586>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 474
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 587>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 473
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 588>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 472
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 589>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 471
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 590>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 470
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 591>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 469
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 592>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 468
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 593>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 467
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 594>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 466
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 595>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 465
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 596>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 464
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 597>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 463
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 598>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 462
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 599>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 461
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 600>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 460
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 601>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 459
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 602>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 458
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 603>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 457
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 604>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 456
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 605>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 455
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 606>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 454
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 607>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 453
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 608>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 452
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 609>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 451
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 610>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 450
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 611>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 449
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 612>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 448
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 613>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 447
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 614>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 446
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 615>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 445
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 616>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 444
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 617>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 443
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 618>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 442
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 619>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 441
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 620>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 440
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 621>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 439
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 622>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 438
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 623>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 437
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 624>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 436
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 625>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 435
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 626>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 434
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 627>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 433
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 628>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 432
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 629>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 431
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 630>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 430
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 631>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 429
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 632>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 428
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 633>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 427
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 634>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 426
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 635>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 425
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 636>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 424
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 637>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 423
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 638>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 422
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 639>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 421
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 640>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 420
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 641>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 419
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 642>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 418
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 643>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 417
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 644>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 416
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 645>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 415
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 646>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 414
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 647>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 413
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 648>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 412
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 649>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 411
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 650>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 410
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 651>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 409
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 652>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 408
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 653>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 407
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 654>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 406
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 655>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 405
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 656>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 404
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 657>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 403
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 658>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 402
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 659>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 401
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 660>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 400
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 661>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 399
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 662>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 398
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 663>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 397
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 664>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 396
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 665>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 395
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 666>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 394
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 667>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 393
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 668>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 392
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 669>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 391
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 670>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 390
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 671>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 389
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 672>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 388
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 673>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 387
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 674>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 386
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 675>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 385
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 676>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 384
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 677>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 383
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 678>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 382
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 679>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 381
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 680>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 380
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 681>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 379
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 682>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 378
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 683>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 377
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 684>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 376
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 685>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 375
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 686>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 374
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 687>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 373
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 688>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 372
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 689>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 371
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 690>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 370
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 691>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 369
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 692>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 368
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 693>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 367
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 694>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 366
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 695>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 365
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 696>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 364
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 697>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 363
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 698>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 362
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 699>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 361
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 700>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 360
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 701>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 359
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 702>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 358
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 703>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 357
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 704>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 356
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 705>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 355
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 706>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 354
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 707>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 353
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 708>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 352
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 709>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 351
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 710>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 350
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 711>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 349
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 712>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 348
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 713>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 347
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 714>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 346
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 715>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 345
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 716>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 344
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 717>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 343
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 718>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 342
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 719>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 341
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 720>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 340
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 721>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 339
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 722>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 338
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 723>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 337
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 724>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 336
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 725>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 335
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 726>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 334
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 727>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 333
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 728>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 332
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 729>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 331
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 730>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 330
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 731>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 329
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 732>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 328
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 733>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 327
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 734>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 326
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 735>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 325
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 736>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 324
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 737>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 323
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 738>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 322
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 739>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 321
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 740>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 320
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 741>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 319
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 742>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 318
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 743>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 317
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 744>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 316
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 745>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 315
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 746>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 314
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 747>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 313
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 748>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 749>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 750>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 751>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 752>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 753>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 754>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 755>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 756>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 757>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 758>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 759>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 760>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 761>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 762>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 763>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 764>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 765>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 766>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 767>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 768>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 769>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 770>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 771>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 772>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 773>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 774>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 775>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 776>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 777>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 778>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 779>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 780>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 781>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 782>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 783>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 784>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 785>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 786>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 787>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 788>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 789>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 790>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 791>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 792>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 793>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 794>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 795>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 796>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 797>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 798>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 799>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 800>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 801>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 802>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 803>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 804>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 805>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 806>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 807>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 808>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 809>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 810>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 811>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 812>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 813>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 814>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 815>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 816>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 817>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 818>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 819>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 820>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 821>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 822>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 823>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 824>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 825>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 826>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 827>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 828>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 829>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 830>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 831>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 832>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 833>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 834>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 835>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 836>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 837>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 838>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 839>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 840>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 841>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 842>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 843>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 844>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 845>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 846>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 847>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 848>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 849>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 850>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 851>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 852>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 853>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 854>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 855>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 856>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 857>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 858>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 859>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 860>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 861>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 862>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 863>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 864>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 865>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 866>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 867>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 868>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 869>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 870>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 871>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 872>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 873>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 874>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 875>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 876>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 877>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 878>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 879>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 880>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 881>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 882>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 883>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 884>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 885>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 886>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 887>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 888>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 889>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 890>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 891>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 892>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 893>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 894>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 895>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 896>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 897>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 898>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 899>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 900>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 901>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 902>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 903>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 904>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 905>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 906>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 907>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 908>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 909>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 910>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 911>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 912>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 913>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 914>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 915>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 916>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 917>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 918>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 919>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 920>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 921>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 922>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 923>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 924>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 925>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 135
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 926>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 927>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 928>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 929>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 930>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 931>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 932>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 933>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 934>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 935>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 936>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 937>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 938>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 939>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 940>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 941>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 942>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 943>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 944>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 945>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 946>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 947>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 948>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 949>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 950>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 951>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 952>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 953>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 954>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 955>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 956>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 957>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 958>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 959>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 960>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 961>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 962>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 963>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 964>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 965>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 966>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 967>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 968>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 969>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 970>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 971>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 972>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 973>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 974>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 975>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 976>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 977>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 978>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 979>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 980>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 981>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 982>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 983>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 984>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 985>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 986>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 987>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 988>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 989>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 990>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 991>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 992>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 993>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 994>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 995>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 996>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 997>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 998>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 999>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1000>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 7)
1 (- - 2) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (? ? ?) (? ? ?) (? ? ?)
1 (- - 2) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STARTING>
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 16 17) (- 27 18)
Agent performance: 100
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 16 17) (- 27 18)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 15 16) (- 27 18)
Agent performance: 105
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 15 16) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 16 17) (- 27 18)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 14 15) (- 27 18)
Agent performance: 110
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 14 15) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 15 16) (- 27 18)
<STEP 3>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 13 14) (- 27 18)
Agent performance: 115
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 13 14) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 14 15) (- 27 18)
<STEP 4>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 12 13) (- 27 18)
Agent performance: 120
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 12 13) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 13 14) (- 27 18)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 11 12) (- 27 18)
Agent performance: 125
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 11 12) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 12 13) (- 27 18)
<STEP 6>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 10 11) (- 27 18)
Agent performance: 130
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 10 11) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 11 12) (- 27 18)
<STEP 7>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 9 10) (- 27 18)
Agent performance: 135
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 9 10) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 10 11) (- 27 18)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 8 9) (- 27 18)
Agent performance: 140
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 8 9) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 9 10) (- 27 18)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 7 8) (- 27 18)
Agent performance: 145
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 7 8) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 8 9) (- 27 18)
<STEP 10>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 6 7) (- 27 18)
Agent performance: 150
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 6 7) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 7 8) (- 27 18)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 5 6) (- 27 18)
Agent performance: 155
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 5 6) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 6 7) (- 27 18)
<STEP 12>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 4 5) (- 27 18)
Agent performance: 160
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 4 5) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 5 6) (- 27 18)
<STEP 13>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 3 4) (- 27 18)
Agent performance: 165
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 3 4) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 4 5) (- 27 18)
<STEP 14>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 2 3) (- 27 18)
Agent performance: 170
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 2 3) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 3 4) (- 27 18)
<STEP 15>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 1 2) (- 27 18)
Agent performance: 175
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L 1 2) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 2 3) (- 27 18)
<STEP 16>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V - 1) (- 27 18)
Agent performance: 180
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 15 20) (- 18 21) (- 29 21)
4 (- 21 18) (L - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (? ? ?) (- 21 18) (V 1 2) (- 27 18)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 20 17) (V - 1) (- 27 18)
Agent performance: 184
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 20 17) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 21 18) (V - 1) (- 27 18)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 19 16) (V - 1) (- 27 18)
Agent performance: 189
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 19 16) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 20 17) (V - 1) (- 27 18)
<STEP 19>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 18 15) (V - 1) (- 27 18)
Agent performance: 194
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 18 15) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 19 16) (V - 1) (- 27 18)
<STEP 20>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 17 14) (V - 1) (- 27 18)
Agent performance: 199
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 17 14) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 18 15) (V - 1) (- 27 18)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 16 13) (V - 1) (- 27 18)
Agent performance: 204
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 16 13) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 17 14) (V - 1) (- 27 18)
<STEP 22>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 15 12) (V - 1) (- 27 18)
Agent performance: 209
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 15 12) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 16 13) (V - 1) (- 27 18)
<STEP 23>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 14 11) (V - 1) (- 27 18)
Agent performance: 214
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 14 11) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 15 12) (V - 1) (- 27 18)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 13 10) (V - 1) (- 27 18)
Agent performance: 219
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 13 10) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 14 11) (V - 1) (- 27 18)
<STEP 25>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 12 9) (V - 1) (- 27 18)
Agent performance: 224
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 12 9) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 13 10) (V - 1) (- 27 18)
<STEP 26>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 11 8) (V - 1) (- 27 18)
Agent performance: 229
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 11 8) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 12 9) (V - 1) (- 27 18)
<STEP 27>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 10 7) (V - 1) (- 27 18)
Agent performance: 234
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 10 7) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 11 8) (V - 1) (- 27 18)
<STEP 28>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 9 6) (V - 1) (- 27 18)
Agent performance: 239
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 9 6) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 10 7) (V - 1) (- 27 18)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 8 5) (V - 1) (- 27 18)
Agent performance: 244
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 8 5) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 9 6) (V - 1) (- 27 18)
<STEP 30>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 7 4) (V - 1) (- 27 18)
Agent performance: 249
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 7 4) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 8 5) (V - 1) (- 27 18)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 6 3) (V - 1) (- 27 18)
Agent performance: 254
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 6 3) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 7 4) (V - 1) (- 27 18)
<STEP 32>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 5 2) (V - 1) (- 27 18)
Agent performance: 259
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 5 2) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 6 3) (V - 1) (- 27 18)
<STEP 33>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 4 1) (V - 1) (- 27 18)
Agent performance: 264
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 4 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 5 2) (V - 1) (- 27 18)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 3 -) (V - 1) (- 27 18)
Agent performance: 269
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 3 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 4 1) (V - 1) (- 27 18)
<STEP 35>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 2 -) (V - 1) (- 27 18)
Agent performance: 279
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 2 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 3 -) (V - 1) (- 27 18)
<STEP 36>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 1 -) (V - 1) (- 27 18)
Agent performance: 289
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 2 -) (V - 1) (- 27 18)
<STEP 37>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V - -) (V - 1) (- 27 18)
Agent performance: 299
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 18) (- 15 20) (- 18 21)
4 (- 22 26) (L - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (? ? ?) (- 22 26) (V 1 -) (V - 1) (- 27 18)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 21 25) (V - -) (V - 1) (- 27 18)
Agent performance: 303
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 21 25) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 22 26) (V - -) (V - 1) (- 27 18)
<STEP 39>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 20 24) (V - -) (V - 1) (- 27 18)
Agent performance: 308
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 20 24) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 21 25) (V - -) (V - 1) (- 27 18)
<STEP 40>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 19 23) (V - -) (V - 1) (- 27 18)
Agent performance: 313
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 19 23) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 20 24) (V - -) (V - 1) (- 27 18)
<STEP 41>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 18 22) (V - -) (V - 1) (- 27 18)
Agent performance: 318
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 18 22) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 19 23) (V - -) (V - 1) (- 27 18)
<STEP 42>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 17 21) (V - -) (V - 1) (- 27 18)
Agent performance: 323
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 17 21) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 18 22) (V - -) (V - 1) (- 27 18)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 16 20) (V - -) (V - 1) (- 27 18)
Agent performance: 328
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 16 20) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 17 21) (V - -) (V - 1) (- 27 18)
<STEP 44>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 15 19) (V - -) (V - 1) (- 27 18)
Agent performance: 333
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 15 19) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 16 20) (V - -) (V - 1) (- 27 18)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 14 18) (V - -) (V - 1) (- 27 18)
Agent performance: 338
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 14 18) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 15 19) (V - -) (V - 1) (- 27 18)
<STEP 46>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 13 17) (V - -) (V - 1) (- 27 18)
Agent performance: 343
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 13 17) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 14 18) (V - -) (V - 1) (- 27 18)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 12 16) (V - -) (V - 1) (- 27 18)
Agent performance: 348
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 12 16) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 13 17) (V - -) (V - 1) (- 27 18)
<STEP 48>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 11 15) (V - -) (V - 1) (- 27 18)
Agent performance: 353
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 11 15) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 12 16) (V - -) (V - 1) (- 27 18)
<STEP 49>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 10 14) (V - -) (V - 1) (- 27 18)
Agent performance: 358
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 10 14) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 11 15) (V - -) (V - 1) (- 27 18)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 9 13) (V - -) (V - 1) (- 27 18)
Agent performance: 363
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 9 13) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 10 14) (V - -) (V - 1) (- 27 18)
<STEP 51>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 8 12) (V - -) (V - 1) (- 27 18)
Agent performance: 368
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 8 12) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 9 13) (V - -) (V - 1) (- 27 18)
<STEP 52>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 7 11) (V - -) (V - 1) (- 27 18)
Agent performance: 373
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 7 11) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 8 12) (V - -) (V - 1) (- 27 18)
<STEP 53>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 6 10) (V - -) (V - 1) (- 27 18)
Agent performance: 378
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 6 10) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 7 11) (V - -) (V - 1) (- 27 18)
<STEP 54>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 5 9) (V - -) (V - 1) (- 27 18)
Agent performance: 383
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 5 9) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 6 10) (V - -) (V - 1) (- 27 18)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 4 8) (V - -) (V - 1) (- 27 18)
Agent performance: 388
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 4 8) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 5 9) (V - -) (V - 1) (- 27 18)
<STEP 56>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 3 7) (V - -) (V - 1) (- 27 18)
Agent performance: 393
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 3 7) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 4 8) (V - -) (V - 1) (- 27 18)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 2 6) (V - -) (V - 1) (- 27 18)
Agent performance: 398
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 2 6) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 3 7) (V - -) (V - 1) (- 27 18)
<STEP 58>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 1 5) (V - -) (V - 1) (- 27 18)
Agent performance: 403
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L 1 5) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 2 6) (V - -) (V - 1) (- 27 18)
<STEP 59>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 408
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 17 15) (- 17 18) (- 15 20)
4 (- 25 20) (L - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 1 5) (V - -) (V - 1) (- 27 18)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 24 19) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 412
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (L 24 19) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 25 20) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 416
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 23 18) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 24 19) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 22 17) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 421
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 22 17) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 63>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 21 16) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 426
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 21 16) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 22 17) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 64>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 20 15) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 431
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 20 15) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 21 16) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 65>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 19 14) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 436
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 19 14) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 20 15) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 66>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 18 13) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 441
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 18 13) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 19 14) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 67>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 17 12) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 446
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 17 12) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 18 13) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 68>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 16 11) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 451
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 16 11) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 17 12) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 69>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 15 10) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 456
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 15 10) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 16 11) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 70>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 14 9) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 461
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 14 9) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 15 10) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 71>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 13 8) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 466
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 13 8) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 14 9) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 72>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 12 7) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 471
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 12 7) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 13 8) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 73>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 11 6) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 476
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 11 6) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 12 7) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 74>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 10 5) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 481
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 10 5) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 11 6) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 75>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 9 4) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 486
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 9 4) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 10 5) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 76>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 8 3) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 491
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 8 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 9 4) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 77>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 7 2) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 496
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 7 2) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 8 3) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 78>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 6 1) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 501
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 6 1) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 7 2) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 79>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 5 -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 506
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 5 -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 6 1) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 80>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 4 -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 516
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 4 -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 5 -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 81>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 3 -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 526
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 3 -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 4 -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 82>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 2 -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 536
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 2 -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 3 -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 83>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 1 -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 546
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U 1 -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 2 -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 84>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 556
PERCEPT
0 1
(A G T) (A G T)
3 (- 17 15) (- 17 18)
4 (U - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 1 -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 560
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 16 14) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 86>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 565
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 15 13) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 87>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 570
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 14 12) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 88>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 575
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 13 11) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 89>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 580
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 12 10) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 90>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 585
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 11 9) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 91>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 590
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 10 8) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 92>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 595
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 9 7) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 93>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 600
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 8 6) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 94>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 605
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 7 5) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 95>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 610
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 6 4) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 96>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 615
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 5 3) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 97>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 620
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 4 2) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 98>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 625
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 3 1) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 99>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 630
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 2 -) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 100>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 640
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U 1 -) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 101>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 650
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 21) (- 29 18)
3 (U - -) (- 17 18)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 654
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 22 20) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 23 21) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 103>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 659
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 21 19) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 22 20) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 104>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 664
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 20 18) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 21 19) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 105>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 669
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 19 17) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 20 18) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 106>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 674
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 18 16) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 19 17) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 107>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 679
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 17 15) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 18 16) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 108>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 684
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 16 14) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 17 15) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 109>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 689
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 15 13) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 16 14) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 110>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 694
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 14 12) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 15 13) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 111>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 699
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 13 11) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 14 12) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 112>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 704
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 12 10) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 13 11) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 113>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 709
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 11 9) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 12 10) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 114>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 714
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 10 8) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 11 9) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 115>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 719
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 9 7) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 10 8) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 116>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 724
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 8 6) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 9 7) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 117>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 729
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 7 5) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 8 6) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 118>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 734
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 6 4) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 7 5) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 119>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 5 3) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 739
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 5 3) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 6 4) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 120>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 4 2) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 744
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 4 2) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 5 3) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 121>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 3 1) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 749
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 3 1) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 4 2) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 122>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 2 -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 754
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 2 -) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 3 1) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 123>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 1 -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 764
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U 1 -) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 2 -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 124>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 774
PERCEPT
0 1
(A G T) (A G T)
1 (- 19 22) (- 19 27)
2 (U - -) (- 29 18)
3 (- - -) (- 17 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V 1 -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 778
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 18 21) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 19 22) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 126>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 783
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 17 20) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 18 21) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 127>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 788
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 16 19) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 17 20) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 128>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 793
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 15 18) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 16 19) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 129>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 798
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 14 17) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 15 18) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 130>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 803
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 13 16) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 14 17) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 131>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 808
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 12 15) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 13 16) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 132>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 813
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 11 14) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 12 15) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 133>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 818
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 10 13) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 11 14) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 134>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 823
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 9 12) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 10 13) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 135>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 828
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 8 11) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 9 12) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 136>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 833
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 7 10) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 8 11) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 137>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 838
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 6 9) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 7 10) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 138>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 843
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 5 8) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 6 9) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 139>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 848
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 4 7) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 5 8) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 140>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 853
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 3 6) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 4 7) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 141>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 858
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 2 5) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 3 6) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 142>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 1 4) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 863
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U 1 4) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 2 5) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 143>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 868
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 15) (- 17 24)
1 (U - 3) (- 19 27)
2 (- - -) (- 29 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V 1 4) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 14) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 872
PERCEPT
0 1
(A G T) (A G T)
0 (U 11 14) (- 17 24)
1 (- - 3) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 15) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 876
PERCEPT
0 1
(A G T) (A G T)
0 (R 10 13) (- 17 24)
1 (- - 3) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 14) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 146>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 12) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 881
PERCEPT
0 1
(A G T) (A G T)
0 (R 9 12) (- 17 24)
1 (- - 3) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 147>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 886
PERCEPT
0 1
(A G T) (A G T)
0 (R 8 11) (- 17 24)
1 (- - 3) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 12) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 148>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 10) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 891
PERCEPT
0 1
(A G T) (A G T)
0 (R 7 10) (- 17 24)
1 (- - 3) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 149>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 896
PERCEPT
0 1
(A G T) (A G T)
0 (R 6 9) (- 17 24)
1 (- - 3) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 10) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 150>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 8) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 901
PERCEPT
0 1
(A G T) (A G T)
0 (R 5 8) (- 17 24)
1 (- - 3) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 151>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 906
PERCEPT
0 1
(A G T) (A G T)
0 (R 4 7) (- 17 24)
1 (- - 3) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 8) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 152>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 6) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 911
PERCEPT
0 1
(A G T) (A G T)
0 (R 3 6) (- 17 24)
1 (- - 3) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 153>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 916
PERCEPT
0 1
(A G T) (A G T)
0 (R 2 5) (- 17 24)
1 (- - 3) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 6) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 154>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 4) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 921
PERCEPT
0 1
(A G T) (A G T)
0 (R 1 4) (- 17 24)
1 (- - 3) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 155>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 926
PERCEPT
0 1
(A G T) (A G T)
0 (R - 3) (- 17 24)
1 (- - 3) (- 19 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 4) (- 17 24) (? ? ?) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 16 23) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 930
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 16 23) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 17 24) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 157>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 15 22) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 935
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 15 22) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 16 23) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 158>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 14 21) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 940
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 14 21) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 15 22) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 159>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 13 20) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 945
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 13 20) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 14 21) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 160>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 12 19) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 950
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 12 19) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 13 20) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 161>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 955
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 11 18) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 12 19) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 162>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 10 17) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 960
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 10 17) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 163>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 9 16) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 965
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 9 16) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 10 17) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 164>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 8 15) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 970
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 8 15) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 9 16) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 165>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 7 14) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 975
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 7 14) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 8 15) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 166>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 6 13) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 980
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 6 13) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 7 14) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 167>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 5 12) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 985
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 5 12) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 6 13) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 168>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 4 11) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 990
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 4 11) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 5 12) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 169>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 3 10) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 995
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 3 10) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 4 11) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 170>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 2 9) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1000
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 2 9) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 3 10) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 171>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 1 8) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1005
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R 1 8) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 2 9) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 172>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1010
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (R - 7) (- 26 18)
1 (- - 3) (- 19 27) (- 13 24)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 1 8) (- 26 18) (? ? ?) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (? ? ?) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 25 17) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1014
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 25 17) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 26 18) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 174>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 24 16) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1019
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 24 16) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 25 17) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 175>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 23 15) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1024
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 23 15) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 24 16) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 176>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 22 14) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1029
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 22 14) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 23 15) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 177>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 21 13) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1034
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 21 13) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 22 14) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 178>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 20 12) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1039
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 20 12) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 21 13) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 179>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 19 11) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1044
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 19 11) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 20 12) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 180>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 18 10) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1049
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 18 10) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 19 11) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 181>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 17 9) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1054
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 17 9) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 18 10) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 182>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 16 8) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1059
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 16 8) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 17 9) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 183>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 15 7) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1064
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 15 7) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 16 8) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 184>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 14 6) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1069
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 14 6) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 15 7) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 185>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 13 5) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1074
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 13 5) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 14 6) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 186>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 12 4) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1079
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 12 4) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 13 5) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 187>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 11 3) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1084
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 11 3) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 12 4) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 188>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 10 2) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1089
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 10 2) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 11 3) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 189>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 9 1) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1094
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 9 1) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 10 2) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 190>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 8 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1099
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 8 -) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 9 1) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 191>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 7 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1109
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 7 -) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 8 -) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 192>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 6 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1119
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 6 -) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 7 -) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 193>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 5 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1129
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 5 -) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 6 -) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 194>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 4 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1139
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 4 -) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 5 -) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 195>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 3 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1149
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 3 -) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 4 -) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 196>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 2 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1159
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 2 -) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 3 -) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 197>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 1 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1169
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R 1 -) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 2 -) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 198>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1179
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R - -) (- 15 17)
1 (- 19 27) (- 13 24) (- 20 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 1 -) (- 15 17) (? ? ?)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (? ? ?)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 199>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 14 16) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1183
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 14 16) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 200>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 13 15) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1188
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 13 15) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 14 16) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 201>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 12 14) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1193
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 12 14) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 13 15) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 202>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 11 13) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1198
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 11 13) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 12 14) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 203>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 10 12) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1203
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 10 12) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 11 13) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 204>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 9 11) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1208
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 9 11) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 10 12) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 205>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 8 10) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1213
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 8 10) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 9 11) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 206>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 7 9) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1218
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 7 9) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 8 10) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 207>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 6 8) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1223
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 6 8) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 7 9) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 208>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 5 7) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1228
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 5 7) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 6 8) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 209>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 4 6) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1233
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 4 6) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 5 7) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 210>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 3 5) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1238
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 3 5) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 4 6) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 211>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 2 4) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1243
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 2 4) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 3 5) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 212>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 1 3) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1248
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 1 3) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 2 4) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 213>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1253
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - 2) (- 16 21)
1 (- 13 24) (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 1 3) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 214>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 15 20)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1257
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (R 15 20)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 14 19)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1261
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 14 19)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 15 20)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 216>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 13 18)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1266
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 13 18)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 14 19)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 217>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 12 17)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1271
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 12 17)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 13 18)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 218>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 11 16)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1276
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 11 16)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 12 17)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 219>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 10 15)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1281
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 10 15)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 11 16)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 220>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 9 14)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1286
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 9 14)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 10 15)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 221>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 8 13)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1291
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 8 13)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 9 14)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 222>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 7 12)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1296
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 7 12)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 8 13)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 223>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 6 11)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1301
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 6 11)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 7 12)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 224>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 5 10)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1306
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 5 10)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 6 11)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 225>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 4 9)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1311
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 4 9)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 5 10)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 226>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 3 8)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1316
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 3 8)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 4 9)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 227>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 2 7)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1321
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 2 7)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 3 8)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 228>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 1 6)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1326
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D 1 6)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 2 7)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 229>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1331
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (D - 5)
1 (- 20 21) (- 20 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 1 6)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1335
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 19 18)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 20 19)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 231>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1340
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 18 17)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 232>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1345
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 17 16)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 233>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1350
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 16 15)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 234>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1355
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 15 14)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 235>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1360
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 14 13)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 236>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1365
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 13 12)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 237>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1370
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 12 11)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 238>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1375
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 11 10)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 239>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1380
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 10 9)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 240>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1385
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 9 8)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 241>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1390
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 8 7)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 242>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1395
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 7 6)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 243>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1400
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 6 5)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 244>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1405
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 5 4)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 245>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1410
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 4 3)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 246>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 3 2)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1415
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 3 2)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 247>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 2 1)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1420
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 2 1)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 3 2)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 248>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 1 -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1425
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D 1 -)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 2 1)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 249>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1435
PERCEPT
3 4
(A G T) (A G T)
0 (- - 2) (- - 5)
1 (- 20 21) (D - -)
2 (- 14 11) (- 21 28)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 1 -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 250>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1439
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 20 27)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 251>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1444
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 19 26)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 20 27)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 252>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1449
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 18 25)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 19 26)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 253>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1454
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 17 24)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 18 25)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 254>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1459
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 16 23)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 17 24)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 255>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1464
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 15 22)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 16 23)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 256>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1469
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 14 21)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 15 22)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 257>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1474
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 13 20)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 14 21)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 258>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1479
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 12 19)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 13 20)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 259>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1484
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 11 18)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 12 19)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 260>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1489
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 10 17)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 11 18)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 261>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1494
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 9 16)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 10 17)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 262>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1499
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 8 15)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 9 16)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 263>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1504
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 7 14)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 8 15)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 264>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1509
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 6 13)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 7 14)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 265>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1514
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 5 12)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 6 13)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 266>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 4 11)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1519
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 4 11)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 267>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 3 10)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1524
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 3 10)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 4 11)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 268>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 2 9)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1529
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 2 9)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 3 10)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 269>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 1 8)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1534
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D 1 8)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 2 9)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 270>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1539
PERCEPT
3 4
(A G T) (A G T)
1 (- 20 21) (- - -)
2 (- 14 11) (D - 7)
3 (- 18 21) (- 29 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V 1 8)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 271>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1543
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 28 20)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 272>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1548
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 27 19)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 273>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1553
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 26 18)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 274>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1558
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 25 17)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 275>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1563
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 24 16)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 276>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1568
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 23 15)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 277>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1573
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 22 14)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 278>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1578
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 21 13)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 279>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1583
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 20 12)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 280>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1588
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 19 11)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 281>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1593
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 18 10)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 282>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1598
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 17 9)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 283>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1603
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 16 8)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 284>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1608
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 15 7)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 285>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1613
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 14 6)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 286>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1618
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 13 5)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 287>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 12 4)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1623
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 12 4)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 288>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 11 3)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1628
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 11 3)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 12 4)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 289>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 10 2)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1633
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 10 2)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 11 3)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 290>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 9 1)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1638
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 9 1)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 10 2)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 291>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 8 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1643
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 8 -)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 9 1)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 292>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 7 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1653
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 7 -)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 8 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 293>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 6 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1663
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 6 -)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 7 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 294>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 5 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1673
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 5 -)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 6 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 295>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 4 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1683
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 4 -)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 5 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 296>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 3 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1693
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 3 -)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 4 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 297>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 2 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1703
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 2 -)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 3 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 298>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 1 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1713
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D 1 -)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 2 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 299>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1723
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D - -)
4 (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 1 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 26 17)
Agent performance: 1727
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (D 26 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 27 18)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 25 16)
Agent performance: 1731
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 26 17)
<STEP 302>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 24 15)
Agent performance: 1736
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 24 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 25 16)
<STEP 303>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 23 14)
Agent performance: 1741
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 24 15)
<STEP 304>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 22 13)
Agent performance: 1746
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 22 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 23 14)
<STEP 305>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 21 12)
Agent performance: 1751
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 22 13)
<STEP 306>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 20 11)
Agent performance: 1756
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 20 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 21 12)
<STEP 307>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 19 10)
Agent performance: 1761
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 20 11)
<STEP 308>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 18 9)
Agent performance: 1766
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 18 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 19 10)
<STEP 309>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 17 8)
Agent performance: 1771
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 18 9)
<STEP 310>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 16 7)
Agent performance: 1776
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 16 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 17 8)
<STEP 311>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 15 6)
Agent performance: 1781
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 16 7)
<STEP 312>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 14 5)
Agent performance: 1786
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 14 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 15 6)
<STEP 313>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 13 4)
Agent performance: 1791
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 14 5)
<STEP 314>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 12 3)
Agent performance: 1796
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 12 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 13 4)
<STEP 315>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 11 2)
Agent performance: 1801
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 12 3)
<STEP 316>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 10 1)
Agent performance: 1806
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 10 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 11 2)
<STEP 317>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 9 -)
Agent performance: 1811
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 10 1)
<STEP 318>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 8 -)
Agent performance: 1821
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 9 -)
<STEP 319>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 7 -)
Agent performance: 1831
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 8 -)
<STEP 320>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 6 -)
Agent performance: 1841
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 7 -)
<STEP 321>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 5 -)
Agent performance: 1851
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 6 -)
<STEP 322>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 4 -)
Agent performance: 1861
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 5 -)
<STEP 323>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 3 -)
Agent performance: 1871
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 4 -)
<STEP 324>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 2 -)
Agent performance: 1881
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 3 -)
<STEP 325>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 1 -)
Agent performance: 1891
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 2 -)
<STEP 326>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1901
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 1 -)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1900
PERCEPT
3 4
(A G T) (A G T)
3 (- 18 21) (- - -)
4 (- - 1) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 328>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1897
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (U - -)
4 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1896
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (R - -)
4 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1895
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (D - -)
4 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1894
PERCEPT
3 4
(A G T) (A G T)
2 (- 14 11) (- - 7)
3 (- 18 21) (L - -)
4 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (? ? ?) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 332>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1898
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 17 20) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 333>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1903
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 16 19) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 334>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1908
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 15 18) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 335>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1913
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 14 17) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 336>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 13 16) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1918
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 13 16) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 337>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 12 15) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1923
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 12 15) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 13 16) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 338>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 11 14) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1928
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 11 14) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 12 15) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 339>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 10 13) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1933
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 10 13) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 11 14) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 340>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 9 12) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1938
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 9 12) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 10 13) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 341>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 8 11) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1943
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 8 11) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 9 12) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 342>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 7 10) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1948
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 7 10) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 8 11) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 343>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 6 9) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1953
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 6 9) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 7 10) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 344>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 5 8) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1958
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 5 8) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 6 9) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 345>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 4 7) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1963
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 4 7) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 5 8) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 346>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1968
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 3 6) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 4 7) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 347>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1973
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 2 5) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 348>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 1 4) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1978
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L 1 4) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 349>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1983
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 29 20) (- 14 11) (- - 7)
3 (- 15 20) (L - 3) (- - -)
4 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 1 4) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 350>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1987
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 14 19) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 15 20) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 351>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 13 18) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1992
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 13 18) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 352>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1997
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 12 17) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 13 18) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 353>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 11 16) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2002
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 11 16) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 354>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 10 15) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2007
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 10 15) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 11 16) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 355>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 9 14) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2012
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 9 14) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 10 15) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 356>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 8 13) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2017
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 8 13) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 9 14) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 357>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 7 12) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2022
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 7 12) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 8 13) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 358>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 6 11) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2027
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 6 11) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 7 12) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 359>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 5 10) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2032
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 5 10) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 6 11) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 360>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 4 9) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2037
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 4 9) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 5 10) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 361>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 3 8) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2042
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 3 8) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 4 9) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 362>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 2 7) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2047
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 2 7) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 3 8) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 363>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 1 6) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2052
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L 1 6) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 2 7) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 364>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2057
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 29 18) (- 29 20) (- 14 11)
3 (- 17 18) (L - 5) (- - 3)
4 (- - 4) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 1 6) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 365>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2061
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 16 17) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 17 18) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 366>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 15 16) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2066
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 15 16) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 367>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 14 15) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2071
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 14 15) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 15 16) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 368>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 13 14) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2076
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 13 14) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 14 15) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 369>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 12 13) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2081
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 12 13) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 13 14) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 370>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 11 12) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2086
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 11 12) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 12 13) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 371>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 10 11) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2091
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 10 11) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 11 12) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 372>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 9 10) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2096
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 9 10) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 10 11) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 373>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 8 9) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2101
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 8 9) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 9 10) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 374>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 7 8) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2106
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 7 8) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 8 9) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 375>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 6 7) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2111
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 6 7) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 7 8) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 376>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 5 6) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2116
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 5 6) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 6 7) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 377>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 4 5) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2121
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 4 5) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 5 6) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 378>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 3 4) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2126
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 3 4) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 4 5) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 379>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 2 3) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2131
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 2 3) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 3 4) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 380>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 1 2) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2136
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L 1 2) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 2 3) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 381>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2141
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 29 18) (- 29 20)
3 (- - -) (L - 1) (- - 5)
4 (- - -) (- - 4) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 1 2) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 382>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2138
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- 29 18)
3 (L - -) (- - 1)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 383>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2137
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- 29 18)
3 (U - -) (- - 1)
4 (- - -) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 384>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2134
PERCEPT
0 1
(A G T) (A G T)
1 (- - 3) (- 19 27)
2 (U - -) (- 29 18)
3 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 385>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2133
PERCEPT
0 1
(A G T) (A G T)
1 (- - 3) (- 19 27)
2 (R - -) (- 29 18)
3 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 386>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 28 17) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2137
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 28 17) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 387>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 27 16) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2142
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 27 16) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 28 17) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 388>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 26 15) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2147
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 26 15) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 27 16) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 389>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 25 14) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2152
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 25 14) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 26 15) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 390>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 24 13) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2157
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 24 13) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 25 14) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 391>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 23 12) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2162
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 23 12) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 24 13) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 392>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 22 11) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2167
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 22 11) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 23 12) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 393>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 21 10) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2172
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 21 10) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 22 11) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 394>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 20 9) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2177
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 20 9) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 21 10) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 395>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 19 8) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2182
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 19 8) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 20 9) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 396>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 18 7) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2187
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 18 7) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 19 8) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 397>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 17 6) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2192
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 17 6) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 18 7) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 398>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 16 5) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2197
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 16 5) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 17 6) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 399>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 15 4) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2202
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 15 4) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 16 5) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 400>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 14 3) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2207
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 14 3) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 15 4) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 401>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 13 2) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2212
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 13 2) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 14 3) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 402>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 12 1) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2217
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 12 1) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 13 2) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 403>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 11 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2222
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 11 -) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 12 1) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 404>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 10 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2232
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 10 -) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 11 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 405>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 9 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2242
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 9 -) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 10 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 406>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 8 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2252
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 8 -) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 9 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 407>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 7 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2262
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 7 -) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 8 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 408>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 6 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2272
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 6 -) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 7 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 409>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 5 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2282
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 5 -) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 6 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 410>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 4 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2292
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 4 -) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 5 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 411>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 3 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2302
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 3 -) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 4 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 412>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 2 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2312
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 2 -) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 3 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 413>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 1 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2322
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R 1 -) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 2 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 414>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2332
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- 13 24)
2 (- - -) (R - -) (- 29 20)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 1 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 415>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 28 19) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2336
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 28 19) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 416>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 27 18) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2341
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 27 18) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 28 19) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 417>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 26 17) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2346
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 26 17) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 27 18) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 418>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 25 16) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2351
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 25 16) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 26 17) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 419>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 24 15) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2356
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 24 15) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 25 16) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 420>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 23 14) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2361
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 23 14) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 24 15) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 421>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 22 13) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2366
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 22 13) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 23 14) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 422>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 21 12) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2371
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 21 12) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 22 13) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 423>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 20 11) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2376
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 20 11) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 21 12) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 424>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 19 10) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2381
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 19 10) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 20 11) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 425>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 18 9) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2386
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 18 9) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 19 10) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 426>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 17 8) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2391
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 17 8) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 18 9) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 427>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 16 7) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2396
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 16 7) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 17 8) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 428>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 15 6) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2401
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 15 6) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 16 7) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 429>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 14 5) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2406
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 14 5) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 15 6) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 430>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 13 4) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2411
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 13 4) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 14 5) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 431>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 12 3) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2416
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 12 3) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 13 4) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 432>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 11 2) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2421
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 11 2) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 12 3) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 433>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 10 1) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2426
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 10 1) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 11 2) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 434>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 9 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2431
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 9 -) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 10 1) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 435>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 8 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2441
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 8 -) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 9 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 436>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 7 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2451
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 7 -) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 8 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 437>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 6 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2461
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 6 -) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 7 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 438>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 5 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2471
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 5 -) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 6 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 439>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 4 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2481
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 4 -) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 5 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 440>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 3 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2491
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 3 -) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 4 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 441>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 2 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2501
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 2 -) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 3 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 442>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 1 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2511
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R 1 -) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 2 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 443>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2521
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- 13 24) (- 20 21)
2 (- - -) (R - -) (- 14 11)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 1 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 444>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 13 10) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2525
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 13 10) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 445>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 12 9) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2530
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 12 9) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 13 10) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 446>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 11 8) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2535
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 11 8) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 12 9) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 447>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 10 7) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2540
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 10 7) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 11 8) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 448>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 9 6) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2545
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 9 6) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 10 7) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 449>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 8 5) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2550
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 8 5) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 9 6) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 450>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 7 4) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2555
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 7 4) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 8 5) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 451>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 6 3) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2560
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 6 3) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 7 4) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 452>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 5 2) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2565
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 5 2) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 6 3) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 453>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 4 1) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2570
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 4 1) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 5 2) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 454>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2575
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 3 -) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 4 1) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 455>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2585
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 2 -) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 456>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2595
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 1 -) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 457>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2605
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (R - -) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 458>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2604
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (D - -) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 459>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2603
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (L - -) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 460>
SELECTED ACTION: Turn
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2602
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 13 24) (- 20 21) (- - -)
2 (- - -) (U - -) (- - 7)
3 (- - 5) (- - 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 461>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 19 20) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2606
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 19 20) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 462>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 18 19) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2611
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 18 19) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 19 20) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 463>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2616
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 17 18) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 18 19) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 464>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 16 17) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2621
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 16 17) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 465>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 15 16) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2626
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 15 16) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 16 17) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 466>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 14 15) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2631
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 14 15) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 15 16) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 467>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 13 14) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2636
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 13 14) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 14 15) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 468>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 12 13) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2641
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 12 13) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 13 14) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 469>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 11 12) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2646
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 11 12) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 12 13) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 470>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 10 11) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2651
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 10 11) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 11 12) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 471>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 9 10) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2656
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 9 10) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 10 11) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 472>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 8 9) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2661
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 8 9) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 9 10) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 473>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 7 8) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2666
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 7 8) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 8 9) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 474>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 6 7) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2671
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 6 7) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 7 8) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 475>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 5 6) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2676
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 5 6) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 6 7) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 476>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 4 5) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2681
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 4 5) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 5 6) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 477>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 3 4) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2686
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 3 4) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 4 5) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 478>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2691
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 2 3) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 3 4) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 479>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 1 2) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2696
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U 1 2) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 480>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2701
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - 5)
1 (- 13 24) (U - 1) (- - -)
2 (- - -) (- - -) (- - 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 1 2) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 481>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 1) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2693
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (U - 1) (- - 5)
1 (- 13 24) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 482>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2687
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 5)
1 (- 13 24) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 1) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 483>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2686
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 5)
1 (- 13 24) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 484>
SELECTED ACTION: Turn
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2685
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 5)
1 (- 13 24) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 485>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2682
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (L - -) (- - -)
1 (- 19 27) (- 13 24) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 486>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2681
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (U - -) (- - -)
1 (- 19 27) (- 13 24) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 487>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2680
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (R - -) (- - -)
1 (- 19 27) (- 13 24) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 488>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2679
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (D - -) (- - -)
1 (- 19 27) (- 13 24) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 489>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 12 23) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2683
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D 12 23) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 490>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2688
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D 11 22) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 12 23) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 491>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 10 21) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2693
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D 10 21) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 492>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 9 20) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2698
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D 9 20) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 10 21) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 493>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 8 19) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2703
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D 8 19) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 9 20) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 494>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 7 18) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2708
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D 7 18) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 8 19) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 495>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 6 17) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2713
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D 6 17) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 7 18) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 496>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 5 16) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2718
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D 5 16) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 6 17) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 497>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 4 15) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2723
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D 4 15) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 5 16) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 498>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 3 14) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2728
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D 3 14) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 4 15) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 499>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 2 13) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2733
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D 2 13) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 3 14) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 500>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 1 12) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2738
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D 1 12) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 2 13) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 501>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2743
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 7) (- - -) (- - -)
1 (- 19 27) (D - 11) (- - 1)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 1 12) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 502>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2740
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- - 11) (- - 1)
2 (- - -) (D - -) (- - -)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 503>
SELECTED ACTION: Turn
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2739
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 27) (- - 11) (- - 1)
2 (- - -) (L - -) (- - -)
3 (- - 1) (- - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 504>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2736
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- - 11)
2 (- - -) (L - -) (- - -)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 505>
SELECTED ACTION: Turn
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2735
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - 3) (- 19 27) (- - 11)
2 (- - -) (U - -) (- - -)
3 (- - -) (- - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 506>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2739
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 18 26) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 507>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 17 25) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2744
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 17 25) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 508>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 16 24) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2749
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 16 24) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 17 25) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 509>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 15 23) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2754
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 15 23) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 16 24) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 510>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 14 22) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2759
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 14 22) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 15 23) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 511>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 13 21) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2764
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 13 21) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 14 22) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 512>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 12 20) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2769
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 12 20) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 13 21) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 513>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 11 19) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2774
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 11 19) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 12 20) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 514>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 10 18) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2779
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 10 18) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 11 19) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 515>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 9 17) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2784
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 9 17) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 10 18) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 516>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 8 16) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2789
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 8 16) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 9 17) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 517>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 7 15) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2794
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 7 15) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 8 16) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 518>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 6 14) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2799
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 6 14) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 7 15) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 519>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 5 13) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2804
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 5 13) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 6 14) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 520>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 4 12) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2809
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 4 12) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 5 13) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 521>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 3 11) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2814
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 3 11) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 4 12) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 522>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 2 10) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2819
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 2 10) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 3 11) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 523>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 1 9) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2824
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U 1 9) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 2 10) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 524>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V - 8) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2829
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -)
1 (- - 3) (U - 8) (- - 11)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 1 9) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STARTING>
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 16 17) (- 27 18)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 16 17) (- 27 18)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 20 17) (- 16 17) (- 27 18)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 24 19) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (L 24 19) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 24 19) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 14) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 11 14) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 14) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 10 13) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (- 26 18) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (R 16 23) (- 26 18) (- 15 17) (- 16 21)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (V 16 23) (- 26 18) (- 15 17) (- 16 21)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (R 25 17) (- 15 17) (- 16 21)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (V 25 17) (- 15 17) (- 16 21)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (R 14 16) (- 16 21)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (V 14 16) (- 16 21)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 15 20)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (R 15 20)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (V 15 20)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (D 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (V 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (D 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (D 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (- 27 18)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (D 28 20)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (- 27 18)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (V 26 17)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (D 26 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (V 26 17)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 23 18) (V 21 25) (V 20 17) (V 16 17) (V 25 16)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (L 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 23 18) (- 21 25) (- 20 17) (- 16 17) (V 25 16)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 23 18) (V 21 25) (V 20 17) (V 15 16) (V 25 16)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 23 18) (- 21 25) (- 20 17) (L 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 23 18) (- 21 25) (- 20 17) (V 15 16) (- 25 16)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 23 18) (V 21 25) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 23 18) (- 21 25) (L 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 23 18) (- 21 25) (V 19 16) (- 15 16) (- 25 16)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 23 18) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 23 18) (L 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 23 18) (V 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 22 17) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (L 22 17) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (V 22 17) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (U 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 16 14) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (V 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (U 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 22 20) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (U 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 18 21) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (U 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 13) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 12) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 9 12) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 12) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 16 23) (V 25 17) (V 14 16) (V 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 8 11) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (- 16 23) (- 25 17) (- 14 16) (- 14 19)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 25 17) (V 14 16) (V 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (R 15 22) (- 25 17) (- 14 16) (- 14 19)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (V 15 22) (- 25 17) (- 14 16) (- 14 19)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 14 16) (V 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (R 24 16) (- 14 16) (- 14 19)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (V 24 16) (- 14 16) (- 14 19)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 14 19)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (R 13 15) (- 14 19)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (V 13 15) (- 14 19)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 13 18)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (R 13 18)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (V 13 18)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (D 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (V 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 19 18)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (D 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 20 27)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (D 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 28 20)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 25 16)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (D 27 19)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (- 25 16)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 24 15)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (D 24 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (V 24 15)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 21 16) (V 20 24) (V 19 16) (V 15 16) (V 23 14)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (L 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 21 16) (- 20 24) (- 19 16) (- 15 16) (V 23 14)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 21 16) (V 20 24) (V 19 16) (V 14 15) (V 23 14)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 21 16) (- 20 24) (- 19 16) (L 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 21 16) (- 20 24) (- 19 16) (V 14 15) (- 23 14)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 21 16) (V 20 24) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 21 16) (- 20 24) (L 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 21 16) (- 20 24) (V 18 15) (- 14 15) (- 23 14)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 21 16) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 21 16) (L 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 21 16) (V 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 20 15) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (L 20 15) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (V 20 15) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (U 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 15 13) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (V 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (U 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 21 19) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (U 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 17 20) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (U 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 11) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 10) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 7 10) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 10) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 15 22) (V 24 16) (V 13 15) (V 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 6 9) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (- 15 22) (- 24 16) (- 13 15) (- 12 17)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 24 16) (V 13 15) (V 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (R 14 21) (- 24 16) (- 13 15) (- 12 17)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (V 14 21) (- 24 16) (- 13 15) (- 12 17)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 13 15) (V 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (R 23 15) (- 13 15) (- 12 17)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (V 23 15) (- 13 15) (- 12 17)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 12 17)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (R 12 14) (- 12 17)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (V 12 14) (- 12 17)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 11 16)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (R 11 16)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (V 11 16)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (D 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (V 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 18 17)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (D 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 19 26)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (D 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 27 19)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 23 14)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (D 26 18)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (- 23 14)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 22 13)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (D 22 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (V 22 13)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 19 14) (V 19 23) (V 18 15) (V 14 15) (V 21 12)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (L 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 19 14) (- 19 23) (- 18 15) (- 14 15) (V 21 12)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 19 14) (V 19 23) (V 18 15) (V 13 14) (V 21 12)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 19 14) (- 19 23) (- 18 15) (L 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 19 14) (- 19 23) (- 18 15) (V 13 14) (- 21 12)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 19 14) (V 19 23) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 19 14) (- 19 23) (L 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 19 14) (- 19 23) (V 17 14) (- 13 14) (- 21 12)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 19 14) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 19 14) (L 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 19 14) (V 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 18 13) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (L 18 13) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (V 18 13) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (U 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 14 12) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (V 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (U 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 20 18) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (U 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 16 19) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (U 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 9) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 8) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 8) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 8) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 14 21) (V 23 15) (V 12 14) (V 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 7) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (- 14 21) (- 23 15) (- 12 14) (- 10 15)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 23 15) (V 12 14) (V 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (R 13 20) (- 23 15) (- 12 14) (- 10 15)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (V 13 20) (- 23 15) (- 12 14) (- 10 15)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 12 14) (V 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (R 22 14) (- 12 14) (- 10 15)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (V 22 14) (- 12 14) (- 10 15)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 10 15)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (R 11 13) (- 10 15)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (V 11 13) (- 10 15)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 9 14)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (R 9 14)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (V 9 14)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (D 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (V 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 17 16)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (D 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 18 25)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (D 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 26 18)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 21 12)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (D 25 17)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (- 21 12)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 20 11)
Agent performance: 316
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (D 20 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (V 20 11)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 17 12) (V 18 22) (V 17 14) (V 13 14) (V 19 10)
Agent performance: 320
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (L 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 17 12) (- 18 22) (- 17 14) (- 13 14) (V 19 10)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 17 12) (V 18 22) (V 17 14) (V 12 13) (V 19 10)
Agent performance: 322
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 17 12) (- 18 22) (- 17 14) (L 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 17 12) (- 18 22) (- 17 14) (V 12 13) (- 19 10)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 17 12) (V 18 22) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 324
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 17 12) (- 18 22) (L 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 17 12) (- 18 22) (V 16 13) (- 12 13) (- 19 10)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 17 12) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 326
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 17 12) (L 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 17 12) (V 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 16 11) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 328
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (L 16 11) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (V 16 11) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 332
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (U 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 13 11) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (V 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 334
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (U 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 19 17) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 336
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (U 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 15 18) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 338
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (U 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 7) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 6) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 340
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 6) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 6) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 13 20) (V 22 14) (V 11 13) (V 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 344
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 5) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (- 13 20) (- 22 14) (- 11 13) (- 8 13)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 22 14) (V 11 13) (V 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 346
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (R 12 19) (- 22 14) (- 11 13) (- 8 13)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (V 12 19) (- 22 14) (- 11 13) (- 8 13)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 11 13) (V 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 348
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (R 21 13) (- 11 13) (- 8 13)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (V 21 13) (- 11 13) (- 8 13)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 8 13)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 350
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (R 10 12) (- 8 13)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (V 10 12) (- 8 13)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 7 12)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 352
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (R 7 12)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (V 7 12)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 356
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (D 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (V 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 16 15)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 358
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (D 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 17 24)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 360
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (D 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 25 17)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 19 10)
Agent performance: 362
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (D 24 16)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (- 19 10)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 18 9)
Agent performance: 364
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (D 18 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (V 18 9)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 15 10) (V 17 21) (V 16 13) (V 12 13) (V 17 8)
Agent performance: 368
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (L 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 15 10) (- 17 21) (- 16 13) (- 12 13) (V 17 8)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 15 10) (V 17 21) (V 16 13) (V 11 12) (V 17 8)
Agent performance: 370
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 15 10) (- 17 21) (- 16 13) (L 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 15 10) (- 17 21) (- 16 13) (V 11 12) (- 17 8)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 15 10) (V 17 21) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 372
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 15 10) (- 17 21) (L 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 15 10) (- 17 21) (V 15 12) (- 11 12) (- 17 8)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 15 10) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 374
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 15 10) (L 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 15 10) (V 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 14 9) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 376
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (L 14 9) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (V 14 9) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 380
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (U 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 12 10) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (V 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 382
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (U 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 18 16) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 384
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (U 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 14 17) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 386
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (U 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 5) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 4) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 388
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 4) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 4) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 109>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 12 19) (V 21 13) (V 10 12) (V 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 392
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - 3) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (- 12 19) (- 21 13) (- 10 12) (- 6 11)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 21 13) (V 10 12) (V 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 394
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 11 18) (- 21 13) (- 10 12) (- 6 11)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (V 11 18) (- 21 13) (- 10 12) (- 6 11)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 10 12) (V 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 396
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (R 20 12) (- 10 12) (- 6 11)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (V 20 12) (- 10 12) (- 6 11)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 6 11)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 398
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (R 9 11) (- 6 11)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (V 9 11) (- 6 11)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 5 10)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 400
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (R 5 10)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (V 5 10)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 404
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (D 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (V 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 15 14)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 406
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (D 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 16 23)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 408
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (D 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 24 16)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 17 8)
Agent performance: 410
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (D 23 15)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (- 17 8)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 16 7)
Agent performance: 412
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (D 16 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (V 16 7)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 13 8) (V 16 20) (V 15 12) (V 11 12) (V 15 6)
Agent performance: 416
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (L 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 13 8) (- 16 20) (- 15 12) (- 11 12) (V 15 6)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 13 8) (V 16 20) (V 15 12) (V 10 11) (V 15 6)
Agent performance: 418
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 13 8) (- 16 20) (- 15 12) (L 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 13 8) (- 16 20) (- 15 12) (V 10 11) (- 15 6)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 13 8) (V 16 20) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 420
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 13 8) (- 16 20) (L 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 13 8) (- 16 20) (V 14 11) (- 10 11) (- 15 6)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 13 8) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 422
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 13 8) (L 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 13 8) (V 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 12 7) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 424
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (L 12 7) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (V 12 7) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 428
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (U 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 11 9) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (V 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 430
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (U 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 17 15) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 432
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (U 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 13 16) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 434
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (U 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 426
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - 2) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 2) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 11 18) (V 20 12) (V 9 11) (V 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 420
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - 1) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (- 11 18) (- 20 12) (- 9 11) (- 4 9)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 20 12) (V 9 11) (V 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 422
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (R 10 17) (- 20 12) (- 9 11) (- 4 9)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (V 10 17) (- 20 12) (- 9 11) (- 4 9)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 9 11) (V 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 424
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (R 19 11) (- 9 11) (- 4 9)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (V 19 11) (- 9 11) (- 4 9)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 4 9)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 426
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (R 8 10) (- 4 9)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (V 8 10) (- 4 9)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 3 8)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 428
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (R 3 8)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (V 3 8)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 432
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (D 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (V 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 14 13)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 434
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (D 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 15 22)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 436
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (D 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 23 15)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 15 6)
Agent performance: 438
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (D 22 14)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (- 15 6)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 14 5)
Agent performance: 440
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (D 14 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (V 14 5)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 11 6) (V 15 19) (V 14 11) (V 10 11) (V 13 4)
Agent performance: 444
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (L 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 11 6) (- 15 19) (- 14 11) (- 10 11) (V 13 4)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 11 6) (V 15 19) (V 14 11) (V 9 10) (V 13 4)
Agent performance: 446
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 11 6) (- 15 19) (- 14 11) (L 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 11 6) (- 15 19) (- 14 11) (V 9 10) (- 13 4)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 11 6) (V 15 19) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 448
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 11 6) (- 15 19) (L 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 11 6) (- 15 19) (V 13 10) (- 9 10) (- 13 4)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 11 6) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 450
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 11 6) (L 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 11 6) (V 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 10 5) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 452
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (L 10 5) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (V 10 5) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 456
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (U 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 10 8) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (V 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 458
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (U 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 16 14) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 460
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (U 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 12 15) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 462
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (U 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 1) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 454
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 10 17) (V 19 11) (V 8 10) (V 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 453
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 10 17) (- 19 11) (- 8 10) (- 2 7)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 19 11) (V 8 10) (V 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 455
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 9 16) (- 19 11) (- 8 10) (- 2 7)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 9 16) (- 19 11) (- 8 10) (- 2 7)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 8 10) (V 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 457
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (R 18 10) (- 8 10) (- 2 7)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (V 18 10) (- 8 10) (- 2 7)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V 2 7)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 459
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (R 7 9) (- 2 7)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (V 7 9) (- 2 7)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V 1 6)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 461
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (R 1 6)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (V 1 6)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 465
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (D - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (V - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 13 12)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 467
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (D 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 14 21)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 469
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (D 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 22 14)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 13 4)
Agent performance: 471
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (D 21 13)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (- 13 4)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 12 3)
Agent performance: 473
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (D 12 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (V 12 3)
<STEP 159>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 9 4) (V 14 18) (V 13 10) (V 9 10) (V 11 2)
Agent performance: 477
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (L 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 9 4) (- 14 18) (- 13 10) (- 9 10) (V 11 2)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 9 4) (V 14 18) (V 13 10) (V 8 9) (V 11 2)
Agent performance: 479
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 9 4) (- 14 18) (- 13 10) (L 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 9 4) (- 14 18) (- 13 10) (V 8 9) (- 11 2)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 9 4) (V 14 18) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 481
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 9 4) (- 14 18) (L 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 9 4) (- 14 18) (V 12 9) (- 8 9) (- 11 2)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 9 4) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 483
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 9 4) (L 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 9 4) (V 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 8 3) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 485
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (L 8 3) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (V 8 3) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 164>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 489
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (U 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 9 7) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (V 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 491
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (U 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 15 13) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 493
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (U 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 11 14) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 495
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (U 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 492
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 16) (V 18 10) (V 7 9) (V - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 491
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 9 16) (- 18 10) (- 7 9) (- - 5)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 18 10) (V 7 9) (V - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 493
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 8 15) (- 18 10) (- 7 9) (- - 5)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 8 15) (- 18 10) (- 7 9) (- - 5)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 171>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 7 9) (V - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 495
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (R 17 9) (- 7 9) (- - 5)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (V 17 9) (- 7 9) (- - 5)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 5)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 497
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (R 6 8) (- - 5)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (V 6 8) (- - 5)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 4)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 489
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (R - 4)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (V - 4)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 483
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (D - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (V - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 12 11)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 485
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (D 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 13 20)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 487
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (D 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 21 13)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 11 2)
Agent performance: 489
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (D 20 12)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (- 11 2)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 10 1)
Agent performance: 491
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (D 10 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (V 10 1)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 7 2) (V 13 17) (V 12 9) (V 8 9) (V 9 -)
Agent performance: 495
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (L 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 7 2) (- 13 17) (- 12 9) (- 8 9) (V 9 -)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 7 2) (V 13 17) (V 12 9) (V 7 8) (V 9 -)
Agent performance: 497
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 7 2) (- 13 17) (- 12 9) (L 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 7 2) (- 13 17) (- 12 9) (V 7 8) (- 9 -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 7 2) (V 13 17) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 499
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 7 2) (- 13 17) (L 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 7 2) (- 13 17) (V 11 8) (- 7 8) (- 9 -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 7 2) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 501
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 7 2) (L 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 7 2) (V 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 6 1) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 503
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (L 6 1) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (V 6 1) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 507
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (U 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 8 6) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (V 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 509
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (U 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 14 12) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (U 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 10 13) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 513
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (U 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 510
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 15) (V 17 9) (V 6 8) (V - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 509
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 8 15) (- 17 9) (- 6 8) (- - 3)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 17 9) (V 6 8) (V - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 7 14) (- 17 9) (- 6 8) (- - 3)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 7 14) (- 17 9) (- 6 8) (- - 3)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 6 8) (V - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 513
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (R 16 8) (- 6 8) (- - 3)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (V 16 8) (- 6 8) (- - 3)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 3)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 515
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (R 5 7) (- - 3)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (V 5 7) (- - 3)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 2)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 507
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (R - 2)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (V - 2)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 501
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (D - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (V - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 11 10)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 503
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (D 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 12 19)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 505
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (D 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 20 12)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 9 -)
Agent performance: 507
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (D 19 11)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (- 9 -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 8 -)
Agent performance: 514
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (D 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (V 8 -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 5 -) (V 12 16) (V 11 8) (V 7 8) (V 7 -)
Agent performance: 523
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (L 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 5 -) (- 12 16) (- 11 8) (- 7 8) (V 7 -)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 5 -) (V 12 16) (V 11 8) (V 6 7) (V 7 -)
Agent performance: 525
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 5 -) (- 12 16) (- 11 8) (L 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 5 -) (- 12 16) (- 11 8) (V 6 7) (- 7 -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 5 -) (V 12 16) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 527
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 5 -) (- 12 16) (L 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 5 -) (- 12 16) (V 10 7) (- 6 7) (- 7 -)
<STEP 202>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 5 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 529
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 5 -) (L 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 5 -) (V 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 4 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 536
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (L 4 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (V 4 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 545
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (U 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 7 5) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (V 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 547
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (U 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 13 11) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (U 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 9 12) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 207>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 551
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (U 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 548
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 14) (V 16 8) (V 5 7) (V - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 547
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 7 14) (- 16 8) (- 5 7) (- - 1)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 16 8) (V 5 7) (V - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 6 13) (- 16 8) (- 5 7) (- - 1)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 6 13) (- 16 8) (- 5 7) (- - 1)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 211>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 5 7) (V - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 551
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (R 15 7) (- 5 7) (- - 1)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (V 15 7) (- 5 7) (- - 1)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - 1)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 553
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (R 4 6) (- - 1)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (V 4 6) (- - 1)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 545
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (R - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (V - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 544
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (D - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (V - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 10 9)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 546
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (D 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 11 18)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 216>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 548
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (D 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 19 11)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 7 -)
Agent performance: 550
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (D 18 10)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (- 7 -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 6 -)
Agent performance: 557
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (D 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (V 6 -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 3 -) (V 11 15) (V 10 7) (V 6 7) (V 5 -)
Agent performance: 566
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (L 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 3 -) (- 11 15) (- 10 7) (- 6 7) (V 5 -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 3 -) (V 11 15) (V 10 7) (V 5 6) (V 5 -)
Agent performance: 568
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 3 -) (- 11 15) (- 10 7) (L 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 3 -) (- 11 15) (- 10 7) (V 5 6) (- 5 -)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 3 -) (V 11 15) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 570
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 3 -) (- 11 15) (L 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 3 -) (- 11 15) (V 9 6) (- 5 6) (- 5 -)
<STEP 222>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 3 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 572
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 3 -) (L 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 3 -) (V 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 2 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 579
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (L 2 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (V 2 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 588
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (U 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 6 4) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (V 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 590
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (U 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 12 10) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 226>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 592
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (U 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 8 11) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 227>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 594
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (U 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 228>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 591
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 13) (V 15 7) (V 4 6) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 590
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 6 13) (- 15 7) (- 4 6) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 15 7) (V 4 6) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 592
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 5 12) (- 15 7) (- 4 6) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 5 12) (- 15 7) (- 4 6) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 231>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 4 6) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 594
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (R 14 6) (- 4 6) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (V 14 6) (- 4 6) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 232>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 596
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (R 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (V 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 593
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (R - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (V - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 592
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (D - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (V - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 9 8)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 235>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 594
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (D 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 10 17)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 596
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (D 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 18 10)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 237>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 5 -)
Agent performance: 598
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (D 17 9)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (- 5 -)
<STEP 238>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 4 -)
Agent performance: 605
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (D 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (V 4 -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V 1 -) (V 10 14) (V 9 6) (V 5 6) (V 3 -)
Agent performance: 614
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (L 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- 1 -) (- 10 14) (- 9 6) (- 5 6) (V 3 -)
<STEP 240>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V 1 -) (V 10 14) (V 9 6) (V 4 5) (V 3 -)
Agent performance: 616
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- 1 -) (- 10 14) (- 9 6) (L 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- 1 -) (- 10 14) (- 9 6) (V 4 5) (- 3 -)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V 1 -) (V 10 14) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 618
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- 1 -) (- 10 14) (L 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- 1 -) (- 10 14) (V 8 5) (- 4 5) (- 3 -)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V 1 -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 620
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- 1 -) (L 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- 1 -) (V 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 243>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 627
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (L - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (V - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 626
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (U - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 5 3) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (V - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 628
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (U 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 11 9) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 630
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (U 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 7 10) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 247>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 632
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (U 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 629
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 12) (V 14 6) (V 3 5) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 628
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 5 12) (- 14 6) (- 3 5) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 250>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 14 6) (V 3 5) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 630
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 4 11) (- 14 6) (- 3 5) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 4 11) (- 14 6) (- 3 5) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 3 5) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 632
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (R 13 5) (- 3 5) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (V 13 5) (- 3 5) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 634
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (R 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (V 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 253>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 631
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (R - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (V - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 630
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (D - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (V - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 8 7)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 255>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 632
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (D 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 9 16)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 634
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (D 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 17 9)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 3 -)
Agent performance: 636
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (D 16 8)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (- 3 -)
<STEP 258>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 2 -)
Agent performance: 643
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (D 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (V 2 -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 9 13) (V 8 5) (V 4 5) (V 1 -)
Agent performance: 652
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 9 13) (- 8 5) (- 4 5) (V 1 -)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 9 13) (V 8 5) (V 3 4) (V 1 -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 9 13) (- 8 5) (L 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 9 13) (- 8 5) (V 3 4) (- 1 -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 9 13) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 9 13) (L 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 9 13) (V 7 4) (- 3 4) (- 1 -)
<STEP 262>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (L 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (V 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 263>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (L - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (V - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (U - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 4 2) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (V - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 265>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (U 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 10 8) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 266>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (U 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 6 9) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (U 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 11) (V 13 5) (V 2 4) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 4 11) (- 13 5) (- 2 4) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 13 5) (V 2 4) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 3 10) (- 13 5) (- 2 4) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 3 10) (- 13 5) (- 2 4) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 271>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 2 4) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (R 12 4) (- 2 4) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (V 12 4) (- 2 4) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 662
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (R 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (V 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (R - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (V - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (D - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (V - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 7 6)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 275>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (D 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 8 15)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 662
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (D 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 16 8)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V 1 -)
Agent performance: 664
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (D 15 7)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (- 1 -)
<STEP 278>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V - -)
Agent performance: 671
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (V - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 8 12) (V 7 4) (V 3 4) (V - -)
Agent performance: 670
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 8 12) (- 7 4) (- 3 4) (V - -)
<STEP 280>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 8 12) (V 7 4) (V 2 3) (V - -)
Agent performance: 672
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 8 12) (- 7 4) (L 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 8 12) (- 7 4) (V 2 3) (- - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 8 12) (V 6 3) (V 2 3) (V - -)
Agent performance: 674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 8 12) (L 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 8 12) (V 6 3) (- 2 3) (- - -)
<STEP 282>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (L 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (V 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 283>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 673
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (L - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (V - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 672
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (U - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 3 1) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (V - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 285>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (U 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 9 7) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 286>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (U 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 5 8) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (U 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 675
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 10) (V 12 4) (V 1 3) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 10) (- 12 4) (- 1 3) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 12 4) (V 1 3) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 2 9) (- 12 4) (- 1 3) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 2 9) (- 12 4) (- 1 3) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 291>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V 1 3) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (R 11 3) (- 1 3) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (V 11 3) (- 1 3) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (R - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (V - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 677
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (R - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (V - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (D - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (V - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 6 5)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 295>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (D 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 7 14)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 296>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (D 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 15 7)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 682
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (D 14 6)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (- - -)
<STEP 298>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (V - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 7 11) (V 6 3) (V 2 3) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 7 11) (- 6 3) (- 2 3) (V - -)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 7 11) (V 6 3) (V 1 2) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 7 11) (- 6 3) (L 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 7 11) (- 6 3) (V 1 2) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 7 11) (V 5 2) (V 1 2) (V - -)
Agent performance: 682
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 7 11) (L 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 7 11) (V 5 2) (- 1 2) (- - -)
<STEP 302>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 684
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (L 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (V 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 303>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (L - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (V - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (U - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 2 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (V - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 687
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (U 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 8 6) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 306>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 689
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (U 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 4 7) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 307>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 691
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (U 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 308>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 688
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 9) (V 11 3) (V - 2) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 687
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 2 9) (- 11 3) (- - 2) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 11 3) (V - 2) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 689
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 1 8) (- 11 3) (- - 2) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 1 8) (- 11 3) (- - 2) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 311>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 2) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 691
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (R 10 2) (- - 2) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (V 10 2) (- - 2) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (R - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (V - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 313>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (R - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (V - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (D - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (V - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 5 4)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (D 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 6 13)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 316>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (D 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 14 6)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (D 13 5)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (- - -)
<STEP 318>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 682
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (V - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 6 10) (V 5 2) (V 1 2) (V - -)
Agent performance: 681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 6 10) (- 5 2) (- 1 2) (V - -)
<STEP 320>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 6 10) (V 5 2) (V - 1) (V - -)
Agent performance: 683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 6 10) (- 5 2) (L - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 6 10) (- 5 2) (V - 1) (- - -)
<STEP 321>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 6 10) (V 4 1) (V - 1) (V - -)
Agent performance: 685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 6 10) (L 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 6 10) (V 4 1) (- - 1) (- - -)
<STEP 322>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 687
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (L 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (V 5 9) (- 4 1) (- - 1) (- - -)
<STEP 323>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 684
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (L - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (V - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (U - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- 1 -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (V - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 325>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 690
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (U - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 7 5) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 326>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 692
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (U 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 3 6) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 327>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 694
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (U 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 328>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 691
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 8) (V 10 2) (V - 1) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 690
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 8) (- 10 2) (- - 1) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 330>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 10 2) (V - 1) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 692
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 7) (- 10 2) (- - 1) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 7) (- 10 2) (- - 1) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 331>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - 1) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 694
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (R 9 1) (- - 1) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (V 9 1) (- - 1) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 332>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 686
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (R - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (V - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (D - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (V - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 20 21) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 334>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 689
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (D 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (V 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 14 11) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 335>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 693
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (D 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (V 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 336>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - 1) (V - -)
Agent performance: 697
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (D 17 20) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 17 20) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (- - 1) (- - -)
<STEP 337>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - -) (V - -)
Agent performance: 689
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (V - -) (- - -)
<STEP 338>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 5 9) (V 4 1) (V - -) (V - -)
Agent performance: 688
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 5 9) (- 4 1) (V - -) (- - -)
<STEP 339>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 5 9) (V 3 -) (V - -) (V - -)
Agent performance: 690
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 5 9) (L 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 5 9) (V 3 -) (- - -) (- - -)
<STEP 340>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 692
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (L 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (V 4 8) (- 3 -) (- - -) (- - -)
<STEP 341>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 689
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (L - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (V - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 342>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 688
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (U - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (V - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 343>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 6 4) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (U - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 6 4) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 344>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 2 5) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 687
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (U 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 2 5) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 345>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 689
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (U 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (V 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 346>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 686
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 347>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 7) (V 9 1) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 7) (- 9 1) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 348>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 9 1) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 677
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 6) (- 9 1) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 6) (- 9 1) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 349>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (R 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (V 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 350>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (R - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (V - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 351>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 19 20) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 675
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (D - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (V - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 19 20) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 352>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 13 10) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 677
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (D 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (V 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 13 10) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 353>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (D 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (V 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 17 20) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 354>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (D 16 19) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 16 19) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (- - -) (- - -)
<STEP 355>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (V - -) (- - -)
<STEP 356>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 4 8) (V 3 -) (V - -) (V - -)
Agent performance: 677
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 4 8) (- 3 -) (V - -) (- - -)
<STEP 357>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 4 8) (V 2 -) (V - -) (V - -)
Agent performance: 684
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 4 8) (L 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 4 8) (V 2 -) (- - -) (- - -)
<STEP 358>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 686
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (L 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (V 3 7) (- 2 -) (- - -) (- - -)
<STEP 359>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (L - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (V - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 360>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 682
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (U - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (V - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 361>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 5 3) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (U - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 5 3) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 362>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V 1 4) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (U 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- 1 4) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 363>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (U - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (V - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 364>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 365>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 6) (V 8 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 6) (- 8 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 366>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 8 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 671
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 5) (- 8 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 5) (- 8 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 367>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (R 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (V 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 368>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 675
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (R - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (V - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 369>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 18 19) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (D - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (V - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 18 19) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 370>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 12 9) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (D 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (V 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 12 9) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 371>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (D 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (V 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 16 19) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 372>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (D 15 18) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 15 18) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (- - -) (- - -)
<STEP 373>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 677
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (V - -) (- - -)
<STEP 374>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 3 7) (V 2 -) (V - -) (V - -)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 3 7) (- 2 -) (V - -) (- - -)
<STEP 375>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 3 7) (V 1 -) (V - -) (V - -)
Agent performance: 683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 3 7) (L 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 3 7) (V 1 -) (- - -) (- - -)
<STEP 376>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (L 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (V 2 6) (- 1 -) (- - -) (- - -)
<STEP 377>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 682
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (L - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (V - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 378>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (U - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (V - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 379>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 4 2) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (U - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 4 2) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 380>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (U 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 3) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 381>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 672
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (U - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (V - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 382>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 669
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 383>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 5) (V 7 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 668
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 5) (- 7 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 384>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 7 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 4) (- 7 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 4) (- 7 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 385>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 667
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (V 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 386>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 664
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (R - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (V - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 387>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 17 18) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 663
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (D - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (V - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 17 18) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 388>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 11 8) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 665
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (D 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (V 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 11 8) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 389>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 667
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (D 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (V 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 15 18) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 390>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 669
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (D 14 17) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 14 17) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (- - -) (- - -)
<STEP 391>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 666
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (V - -) (- - -)
<STEP 392>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 2 6) (V 1 -) (V - -) (V - -)
Agent performance: 665
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 2 6) (- 1 -) (V - -) (- - -)
<STEP 393>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 2 6) (V - -) (V - -) (V - -)
Agent performance: 672
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 2 6) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 2 6) (V - -) (- - -) (- - -)
<STEP 394>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (L 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (V 1 5) (- - -) (- - -) (- - -)
<STEP 395>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 671
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (L - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (V - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 396>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 670
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (U - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (V - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 397>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 3 1) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 667
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (U - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 3 1) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 398>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 2) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 669
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (U 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 2) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 399>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (U - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (V - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 400>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 401>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 6 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 6 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 402>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 6 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 3) (- 6 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 3) (- 6 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 403>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 404>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (R - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 405>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 16 17) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 652
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (D - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 16 17) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 406>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 15 16) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 10 7) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (D 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (V 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 10 7) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 407>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 15 16) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 9 6) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (D 9 6) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (V 9 6) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 14 17) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 408>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 15 16) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 9 6) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 13 16) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 9 6) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (D 13 16) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 9 6) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 13 16) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 409>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 15 16) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 9 6) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 13 16) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 9 6) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 13 16) (- 13 5)
4 (- - -) (- 1 5) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 9 6) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 13 16) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 410>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 15 16) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 9 6) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 13 16) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 9 6) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 13 16) (- 13 5)
4 (- - -) (- 1 5) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 9 6) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 13 16) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 411>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 15 16) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 9 6) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 13 16) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 9 6) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 13 16) (- 13 5)
4 (- - -) (- 1 5) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 9 6) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 13 16) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 412>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 15 16) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 9 6) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 12 15) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 9 6) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (U 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 9 6) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 413>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 15 16) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 8 5) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 12 15) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (U 8 5) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 15 16) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (V 8 5) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 414>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 14 15) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 8 5) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 12 15) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (U 14 15) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 8 5) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (V 14 15) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 8 5) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 415>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 14 15) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 8 5) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 12 15) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (U - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 14 15) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 8 5) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 14 15) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 8 5) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 416>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 14 15) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 8 5) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 12 15) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (R - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 14 15) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 8 5) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 14 15) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 8 5) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 417>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 14 15) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 8 5) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 12 15) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (D - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 14 15) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 8 5) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 14 15) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 8 5) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 418>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 13 14) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 8 5) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 12 15) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (D 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 8 5) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (V 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 8 5) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 419>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 13 14) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 7 4) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 12 15) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (D 7 4) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (V 7 4) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 12 15) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 420>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 13 14) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 7 4) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 11 14) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 7 4) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (D 11 14) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 7 4) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 11 14) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 421>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 13 14) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 7 4) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 11 14) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 7 4) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 11 14) (- 13 5)
4 (- - -) (- 1 5) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 7 4) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 11 14) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 422>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 13 14) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 7 4) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 11 14) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 7 4) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 11 14) (- 13 5)
4 (- - -) (- 1 5) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 7 4) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 11 14) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 423>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 13 14) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 7 4) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 11 14) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 7 4) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 11 14) (- 13 5)
4 (- - -) (- 1 5) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 7 4) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 11 14) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 424>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 13 14) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 7 4) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 10 13) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 7 4) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (U 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 7 4) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 425>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 13 14) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 6 3) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 10 13) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (U 6 3) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 13 14) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (V 6 3) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 426>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 12 13) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 6 3) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 10 13) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (U 12 13) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 6 3) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (V 12 13) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 6 3) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 427>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 12 13) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 6 3) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 10 13) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (U - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 12 13) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 6 3) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 12 13) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 6 3) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 428>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 12 13) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 6 3) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 10 13) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (R - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 12 13) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 6 3) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 12 13) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 6 3) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 429>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 12 13) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 6 3) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 10 13) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (D - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 12 13) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 6 3) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 12 13) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 6 3) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 430>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 11 12) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 6 3) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 10 13) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (D 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 6 3) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (V 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 6 3) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 431>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 11 12) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 5 2) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 10 13) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (D 5 2) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (V 5 2) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 10 13) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 432>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 11 12) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 5 2) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 9 12) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 662
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 5 2) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (D 9 12) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 5 2) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 9 12) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 433>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 11 12) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 5 2) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 9 12) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 5 2) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 9 12) (- 13 5)
4 (- - -) (- 1 5) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 5 2) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 9 12) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 434>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 11 12) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 5 2) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 9 12) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 5 2) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 9 12) (- 13 5)
4 (- - -) (- 1 5) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 5 2) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 9 12) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 435>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 11 12) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 5 2) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 9 12) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 5 2) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 9 12) (- 13 5)
4 (- - -) (- 1 5) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 5 2) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 9 12) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 436>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 11 12) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 5 2) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 8 11) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 5 2) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (U 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 5 2) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 437>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 11 12) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 4 1) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 8 11) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (U 4 1) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 11 12) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (V 4 1) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 438>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 10 11) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 4 1) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 8 11) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 663
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (U 10 11) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 4 1) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (V 10 11) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 4 1) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 439>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 10 11) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 4 1) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 8 11) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (U - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 10 11) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 4 1) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 10 11) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 4 1) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 440>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 10 11) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 4 1) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 8 11) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (R - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 10 11) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 4 1) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 10 11) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 4 1) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 441>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 10 11) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 4 1) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 8 11) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (D - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 10 11) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 4 1) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 10 11) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 4 1) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 442>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 9 10) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 4 1) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 8 11) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (D 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 4 1) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (V 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 4 1) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 443>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 9 10) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 3 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 8 11) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 662
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (D 3 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (V 3 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 8 11) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 444>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 9 10) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 3 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 7 10) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 664
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 3 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (D 7 10) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 3 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 7 10) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 445>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 9 10) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 3 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 7 10) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 3 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 7 10) (- 13 5)
4 (- - -) (- 1 5) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 3 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 7 10) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 446>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 9 10) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 3 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 7 10) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 3 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 7 10) (- 13 5)
4 (- - -) (- 1 5) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 3 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 7 10) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 447>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 9 10) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 3 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 7 10) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 3 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 7 10) (- 13 5)
4 (- - -) (- 1 5) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 3 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 7 10) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 448>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 9 10) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 3 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 6 9) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 3 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (U 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 3 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 449>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 9 10) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 2 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 6 9) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 668
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (U 2 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 9 10) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (V 2 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 450>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 8 9) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 2 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 6 9) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 670
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (U 8 9) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 2 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (V 8 9) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 2 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 451>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 8 9) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 2 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 6 9) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 667
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (U - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 8 9) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 2 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 8 9) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 2 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 452>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 8 9) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 2 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 6 9) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 666
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (R - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 8 9) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 2 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 8 9) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 2 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 453>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 8 9) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 2 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 6 9) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 665
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (D - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 8 9) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 2 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 8 9) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 2 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 454>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 7 8) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 2 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 6 9) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 667
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (D 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 2 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (V 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 2 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 455>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 7 8) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 1 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 6 9) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (D 1 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (V 1 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 6 9) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 456>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 7 8) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 1 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 5 8) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 1 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (D 5 8) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 1 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 5 8) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 457>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 7 8) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 1 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 5 8) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 673
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 1 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 5 8) (- 13 5)
4 (- - -) (- 1 5) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 1 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 5 8) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 458>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 7 8) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 1 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 5 8) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 672
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 1 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 5 8) (- 13 5)
4 (- - -) (- 1 5) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 1 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 5 8) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 459>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 7 8) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 1 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 5 8) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 671
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 1 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 5 8) (- 13 5)
4 (- - -) (- 1 5) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 1 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 5 8) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 460>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 7 8) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V 1 -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 4 7) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 673
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 1 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (U 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- 1 -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 461>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 7 8) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 4 7) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (U - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 7 8) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (V - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 462>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 6 7) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 4 7) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 682
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (U 6 7) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (V 6 7) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 463>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 6 7) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 4 7) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (U - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 6 7) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 6 7) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 464>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 6 7) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 4 7) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (R - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 6 7) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 6 7) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 465>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 6 7) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 4 7) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 677
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (D - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 6 7) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 6 7) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 466>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 4 7) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (D 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (V 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 467>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 4 7) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (D - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (V - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 4 7) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 468>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (D 3 6) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (V 3 6) (- 13 5)
4 (- - -) (- 1 5) (- - -) (- - -) (- - -)
<STEP 469>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 675
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- 1 5) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 470>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- 1 5) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- 1 5) (- - -) (V - -) (- - -)
<STEP 471>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V 1 5) (V - -) (V - -) (V - -)
Agent performance: 671
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- 1 5) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- 1 5) (V - -) (- - -) (- - -)
<STEP 472>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 673
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (L - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (V - 4) (- - -) (- - -) (- - -)
<STEP 473>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 670
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (L - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (V - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 474>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 669
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (U - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (V - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 475>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 2 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 666
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (U - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 2 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 476>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - 1) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 673
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (U 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - 1) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (V 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 477>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 665
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (U - -) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (V - -) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 478>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (- 19 27) (- 13 24) (V 5 6) (V 4 3)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 664
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (R - -) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (V - -) (- 19 27) (- 13 24) (- 5 6) (- 4 3)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 479>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (- 13 24) (V 5 6) (V 4 3)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 668
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (R 18 26) (- 13 24) (- 5 6) (- 4 3)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (V 18 26) (- 13 24) (- 5 6) (- 4 3)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 480>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 5 6) (V 4 3)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 672
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (R 12 23) (- 5 6) (- 4 3)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (V 12 23) (- 5 6) (- 4 3)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 481>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 4 3)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (R 4 5) (- 4 3)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (V 4 5) (- 4 3)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 482>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 3 2)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (R 3 2)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V 3 2)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 483>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 2 1)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (D 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 484>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 2 1)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 4 11)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 682
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (D 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 13 5)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 485>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 2 1)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 4 11)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 12 4)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 684
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (D 12 4)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V 12 4)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 486>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 2 1)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 4 11)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 12 4)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 12 4)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 12 4)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 487>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 2 1)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 4 11)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 12 4)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 12 4)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 12 4)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 488>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 2 1)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 4 11)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 12 4)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 12 4)
4 (- - -) (- - 4) (- - -) (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 12 4)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 489>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 2 1)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 4 11)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 11 3)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (U 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 490>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 2 1)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 3 10)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 11 3)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (U 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 2 1)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 491>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 1 -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 3 10)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 11 3)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (U 1 -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V 1 -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 492>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 1 -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 3 10)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 11 3)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 682
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (U - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 1 -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (V - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 1 -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 493>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 1 -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 3 10)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 11 3)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (R - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 1 -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (V - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 1 -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 494>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V 1 -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 3 10)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 11 3)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (D - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 1 -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (V - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- 1 -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 495>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 3 10)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 11 3)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 687
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (D - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 496>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 2 9)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 11 3)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 689
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (D 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 11 3)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 497>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 2 9)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 10 2)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 691
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (D 10 2)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V 10 2)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 498>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 2 9)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 10 2)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 688
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 10 2)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 10 2)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 499>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 2 9)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 10 2)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 687
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 10 2)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 10 2)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 500>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 2 9)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 10 2)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 686
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 10 2)
4 (- - -) (- - 4) (- - -) (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 10 2)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 501>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 2 9)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 9 1)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 688
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (U 9 1)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V 9 1)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 502>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 1 8)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 9 1)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 690
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (U 1 8)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 9 1)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V 1 8)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 9 1)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 503>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 1 8)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 9 1)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 687
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (U - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 1 8)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 9 1)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 1 8)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 9 1)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 504>
SELECTED ACTION: Turn
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 1 8)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 9 1)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 686
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (R - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 1 8)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 9 1)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 1 8)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 9 1)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 505>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V 1 8)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 9 1)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (D - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 1 8)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 9 1)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- 1 8)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 9 1)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 506>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 9 1)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 687
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (D - 7)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 9 1)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V - 7)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 9 1)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 507>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 8 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 689
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (D 8 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V 8 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 508>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 8 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 686
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 8 -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 8 -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 509>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 8 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 8 -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 8 -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 510>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 8 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 684
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 8 -)
4 (- - -) (- - 4) (- - -) (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 8 -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 511>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 7 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 691
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (U 7 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V 7 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 512>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 6)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 7 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (U - 6)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 7 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V - 6)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 7 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 513>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 6)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 7 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (U - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 6)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 7 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 6)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 7 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 514>
SELECTED ACTION: Turn
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 6)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 7 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (R - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 6)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 7 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 6)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 7 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 515>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 6)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 7 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (D - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 6)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 7 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 6)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 7 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 516>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 5)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 7 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 670
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (D - 5)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 7 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V - 5)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 7 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 517>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 5)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 6 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 677
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 5)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (D 6 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 5)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V 6 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 518>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 5)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 6 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 5)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 6 -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 5)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 6 -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 519>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 5)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 6 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 673
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 5)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 6 -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 5)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 6 -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 520>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 5)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 6 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 672
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 5)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 6 -)
4 (- - -) (- - 4) (- - -) (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 5)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 6 -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 521>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 5)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 5 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 5)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (U 5 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 5)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V 5 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 522>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 4)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 5 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 671
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (U - 4)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 5 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V - 4)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 5 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 523>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 4)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 5 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 668
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (U - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 4)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 5 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 4)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 5 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 524>
SELECTED ACTION: Turn
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 4)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 5 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 667
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (R - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 4)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 5 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 4)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 5 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 525>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 4)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 5 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 666
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (D - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 4)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 5 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 4)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 5 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 526>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 3)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 5 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (D - 3)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 5 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V - 3)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 5 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 527>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 3)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 4 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 665
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 3)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (D 4 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 3)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V 4 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 528>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 3)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 4 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 662
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 3)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 4 -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 3)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 4 -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 529>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 3)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 4 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 3)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 4 -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 3)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 4 -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 530>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 3)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 4 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 3)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 4 -)
4 (- - -) (- - 4) (- - -) (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 3)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 4 -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 531>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 3)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 3 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 667
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 3)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (U 3 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 3)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V 3 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 532>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 2)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 3 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (U - 2)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 3 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V - 2)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 3 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 533>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 2)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 3 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (U - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 2)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 3 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 2)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 3 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 534>
SELECTED ACTION: Turn
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 2)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 3 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (R - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 2)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 3 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 2)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 3 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 535>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 2)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 3 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (D - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 2)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 3 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (V - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 2)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 3 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 536>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 1)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 3 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (D - 1)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 3 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V - 1)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 3 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 537>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 1)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 2 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 1)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (D 2 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 1)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V 2 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 538>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 1)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 2 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 1)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 2 -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 1)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 2 -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 539>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 1)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 2 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 1)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 2 -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 1)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 2 -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 540>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 1)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 2 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 648
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 1)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 2 -)
4 (- - -) (- - 4) (- - -) (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 1)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 2 -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 541>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - 1)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 1 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 1)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (U 1 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - 1)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V 1 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 542>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - -)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 1 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (U - -)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 1 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V - -)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 1 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 543>
SELECTED ACTION: Turn
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - -)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 1 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (R - -)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 1 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V - -)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 1 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 544>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - -)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V 1 -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 645
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (D - -)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 1 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (V - -)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (- 1 -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 545>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - -)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 652
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (D - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 546>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - -)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 651
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (L - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (- 17 18) (- 15 20) (- 3 6) (V - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 547>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - -)
3 (V - -) (- 17 18) (- 15 20) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (- 17 18) (- 15 20) (L 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (- 17 18) (- 15 20) (V 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 548>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - -)
3 (V - -) (- 17 18) (V 14 19) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (- 17 18) (L 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (- 17 18) (V 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 549>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (L 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (V 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 550>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (L - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (V - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 551>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V 1 -) (- 29 18) (- 29 20) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (U - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- 1 -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (V - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 552>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V - -) (- 29 18) (- 29 20) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 664
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (U - -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (V - -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 553>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V - -) (- 29 18) (- 29 20) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 663
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (R - -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (V - -) (- 29 18) (- 29 20) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 554>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V - -) (V 28 17) (- 29 20) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 667
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (R 28 17) (- 29 20) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (V 28 17) (- 29 20) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 555>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 671
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (R 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (V 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 556>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 668
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 557>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 667
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 558>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 1 4) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 669
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (D 1 4) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (V 1 4) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 559>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 1 4) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 666
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 1 4) (- - -)
4 (- - -) (- - 4) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 1 4) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 560>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 1 4) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 665
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 1 4) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 1 4) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 561>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V 1 4) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 664
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 1 4) (- - -)
4 (- - -) (- - 4) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- 1 4) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 562>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 666
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (U - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (V - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 563>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 4 5) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 663
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (U - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 4 5) (- - -)
2 (- - -) (- 28 17) (- 28 19) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 564>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 3 4) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 665
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (U 3 4) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (V 3 4) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 565>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 3 4) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 662
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (U - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 3 4) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 3 4) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 566>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 3 4) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (R - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 3 4) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 3 4) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 567>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 3 4) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (D - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 3 4) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (V - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 3 4) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 568>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 662
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (D 2 3) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (V 2 3) (- - -)
2 (- - -) (- 28 17) (- 28 19) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 569>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 28 17) (- 28 19) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 28 17) (- 28 19) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 570>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 28 17) (V 28 19) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 28 17) (- 28 19) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 28 17) (- 28 19) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 571>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 28 17) (V 27 18) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 28 17) (L 27 18) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 28 17) (V 27 18) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 572>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 27 16) (V 27 18) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 662
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 27 16) (- 27 18) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 27 16) (- 27 18) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 573>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 27 16) (V 27 18) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 27 16) (- 27 18) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 27 16) (- 27 18) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 574>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 27 16) (V 27 18) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 27 16) (- 27 18) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 27 16) (- 27 18) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 575>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 27 16) (V 27 18) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 27 16) (- 27 18) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 27 16) (- 27 18) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 576>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 26 15) (V 27 18) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 26 15) (- 27 18) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 26 15) (- 27 18) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 577>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 26 15) (V 26 17) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 26 15) (R 26 17) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 26 15) (V 26 17) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 578>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 26 15) (V 26 17) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 26 15) (- 26 17) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 26 15) (- 26 17) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 579>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 26 15) (V 26 17) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 26 15) (- 26 17) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 26 15) (- 26 17) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 580>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 26 15) (V 26 17) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 26 15) (- 26 17) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 26 15) (- 26 17) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 581>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 26 15) (V 25 16) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 26 15) (L 25 16) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 26 15) (V 25 16) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 582>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 25 14) (V 25 16) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 25 14) (- 25 16) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 25 14) (- 25 16) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 583>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 25 14) (V 25 16) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 25 14) (- 25 16) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 25 14) (- 25 16) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 584>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 25 14) (V 25 16) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 25 14) (- 25 16) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 25 14) (- 25 16) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 585>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 25 14) (V 25 16) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 25 14) (- 25 16) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 25 14) (- 25 16) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 586>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 24 13) (V 25 16) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 24 13) (- 25 16) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 24 13) (- 25 16) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 587>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 24 13) (V 24 15) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 24 13) (R 24 15) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 24 13) (V 24 15) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 588>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 24 13) (V 24 15) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 24 13) (- 24 15) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 24 13) (- 24 15) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 589>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 24 13) (V 24 15) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 24 13) (- 24 15) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 24 13) (- 24 15) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 590>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 24 13) (V 24 15) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 24 13) (- 24 15) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 24 13) (- 24 15) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 591>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 24 13) (V 23 14) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 24 13) (L 23 14) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 24 13) (V 23 14) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 592>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 23 12) (V 23 14) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 23 12) (- 23 14) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 23 12) (- 23 14) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 593>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 23 12) (V 23 14) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 23 12) (- 23 14) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 23 12) (- 23 14) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 594>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 23 12) (V 23 14) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 23 12) (- 23 14) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 23 12) (- 23 14) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 595>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 23 12) (V 23 14) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 23 12) (- 23 14) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 23 12) (- 23 14) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 596>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 22 11) (V 23 14) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 22 11) (- 23 14) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 22 11) (- 23 14) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 597>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 22 11) (V 22 13) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 22 11) (R 22 13) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 22 11) (V 22 13) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 598>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 22 11) (V 22 13) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 22 11) (- 22 13) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 22 11) (- 22 13) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 599>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 22 11) (V 22 13) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 22 11) (- 22 13) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 22 11) (- 22 13) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 600>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 22 11) (V 22 13) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 652
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 22 11) (- 22 13) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 22 11) (- 22 13) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 601>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 22 11) (V 21 12) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 22 11) (L 21 12) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 22 11) (V 21 12) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 602>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 21 10) (V 21 12) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 21 10) (- 21 12) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 21 10) (- 21 12) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 603>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 21 10) (V 21 12) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 21 10) (- 21 12) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 21 10) (- 21 12) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 604>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 21 10) (V 21 12) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 652
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 21 10) (- 21 12) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 21 10) (- 21 12) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 605>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 21 10) (V 21 12) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 651
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 21 10) (- 21 12) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 21 10) (- 21 12) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 606>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 20 9) (V 21 12) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 20 9) (- 21 12) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 20 9) (- 21 12) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 607>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 20 9) (V 20 11) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 20 9) (R 20 11) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 20 9) (V 20 11) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 608>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 20 9) (V 20 11) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 652
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 20 9) (- 20 11) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 20 9) (- 20 11) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 609>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 20 9) (V 20 11) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 651
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 20 9) (- 20 11) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 20 9) (- 20 11) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 610>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 20 9) (V 20 11) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 20 9) (- 20 11) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 20 9) (- 20 11) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 611>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 20 9) (V 19 10) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 652
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 20 9) (L 19 10) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 20 9) (V 19 10) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 612>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 19 8) (V 19 10) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 19 8) (- 19 10) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 19 8) (- 19 10) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 613>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 19 8) (V 19 10) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 651
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 19 8) (- 19 10) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 19 8) (- 19 10) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 614>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 19 8) (V 19 10) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 19 8) (- 19 10) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 19 8) (- 19 10) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 615>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 19 8) (V 19 10) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 19 8) (- 19 10) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 19 8) (- 19 10) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 616>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 18 7) (V 19 10) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 651
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 18 7) (- 19 10) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 18 7) (- 19 10) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 617>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 18 7) (V 18 9) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 18 7) (R 18 9) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 18 7) (V 18 9) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 618>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 18 7) (V 18 9) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 18 7) (- 18 9) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 18 7) (- 18 9) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 619>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 18 7) (V 18 9) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 18 7) (- 18 9) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 18 7) (- 18 9) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 620>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 18 7) (V 18 9) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 648
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 18 7) (- 18 9) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 18 7) (- 18 9) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 621>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 18 7) (V 17 8) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 18 7) (L 17 8) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 18 7) (V 17 8) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 622>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 17 6) (V 17 8) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 652
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 17 6) (- 17 8) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 17 6) (- 17 8) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 623>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 17 6) (V 17 8) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 17 6) (- 17 8) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 17 6) (- 17 8) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 624>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 17 6) (V 17 8) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 648
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 17 6) (- 17 8) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 17 6) (- 17 8) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 625>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 17 6) (V 17 8) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 17 6) (- 17 8) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 17 6) (- 17 8) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 626>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 16 5) (V 17 8) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 16 5) (- 17 8) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 16 5) (- 17 8) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 627>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 16 5) (V 16 7) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 651
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 16 5) (R 16 7) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 16 5) (V 16 7) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 628>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 16 5) (V 16 7) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 648
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 16 5) (- 16 7) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 16 5) (- 16 7) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 629>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 16 5) (V 16 7) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 16 5) (- 16 7) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 16 5) (- 16 7) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 630>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 16 5) (V 16 7) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 16 5) (- 16 7) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 16 5) (- 16 7) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 631>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 16 5) (V 15 6) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 648
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 16 5) (L 15 6) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 16 5) (V 15 6) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 632>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 15 4) (V 15 6) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 15 4) (- 15 6) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 15 4) (- 15 6) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 633>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 15 4) (V 15 6) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 15 4) (- 15 6) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 15 4) (- 15 6) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 634>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 15 4) (V 15 6) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 15 4) (- 15 6) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 15 4) (- 15 6) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 635>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 15 4) (V 15 6) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 645
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 15 4) (- 15 6) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 15 4) (- 15 6) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 636>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 14 3) (V 15 6) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 14 3) (- 15 6) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 14 3) (- 15 6) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 637>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 14 3) (V 14 5) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 14 3) (R 14 5) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 14 3) (V 14 5) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 638>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 14 3) (V 14 5) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 14 3) (- 14 5) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 14 3) (- 14 5) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 639>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 14 3) (V 14 5) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 645
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 14 3) (- 14 5) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 14 3) (- 14 5) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 640>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 14 3) (V 14 5) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 644
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 14 3) (- 14 5) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 14 3) (- 14 5) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 641>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 14 3) (V 13 4) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 14 3) (L 13 4) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 14 3) (V 13 4) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 642>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 13 2) (V 13 4) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 648
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 13 2) (- 13 4) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 13 2) (- 13 4) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 643>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 13 2) (V 13 4) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 645
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 13 2) (- 13 4) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 13 2) (- 13 4) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 644>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 13 2) (V 13 4) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 644
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 13 2) (- 13 4) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 13 2) (- 13 4) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 645>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 13 2) (V 13 4) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 643
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 13 2) (- 13 4) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 13 2) (- 13 4) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 646>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 12 1) (V 13 4) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 645
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 12 1) (- 13 4) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 12 1) (- 13 4) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 647>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 12 1) (V 12 3) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 12 1) (R 12 3) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 12 1) (V 12 3) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 648>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 12 1) (V 12 3) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 644
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 12 1) (- 12 3) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 12 1) (- 12 3) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 649>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 12 1) (V 12 3) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 643
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 12 1) (- 12 3) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 12 1) (- 12 3) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 650>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 12 1) (V 12 3) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 642
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 12 1) (- 12 3) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 12 1) (- 12 3) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 651>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 12 1) (V 11 2) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 644
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 12 1) (L 11 2) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 12 1) (V 11 2) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 652>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 11 -) (V 11 2) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 11 -) (- 11 2) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 11 -) (- 11 2) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 653>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 11 -) (V 11 2) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 643
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 11 -) (- 11 2) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 11 -) (- 11 2) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 654>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 11 -) (V 11 2) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 642
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 11 -) (- 11 2) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 11 -) (- 11 2) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 655>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 11 -) (V 11 2) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 641
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 11 -) (- 11 2) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 11 -) (- 11 2) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 656>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 10 -) (V 11 2) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 648
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 10 -) (- 11 2) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 10 -) (- 11 2) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 657>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 10 -) (V 10 1) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 10 -) (R 10 1) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 10 -) (V 10 1) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 658>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 10 -) (V 10 1) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 10 -) (- 10 1) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 10 -) (- 10 1) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 659>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 10 -) (V 10 1) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 10 -) (- 10 1) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 10 -) (- 10 1) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 660>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 10 -) (V 10 1) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 645
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 10 -) (- 10 1) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 10 -) (- 10 1) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 661>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 10 -) (V 9 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 10 -) (L 9 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 10 -) (V 9 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 662>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 9 -) (V 9 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 9 -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 9 -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 663>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 9 -) (V 9 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 651
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 9 -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 9 -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 664>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 9 -) (V 9 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 9 -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 9 -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 665>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 9 -) (V 9 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 9 -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 9 -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 666>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 8 -) (V 9 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 8 -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 8 -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 667>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 8 -) (V 8 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 663
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 8 -) (R 8 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 8 -) (V 8 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 668>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 8 -) (V 8 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 8 -) (- 8 -) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 8 -) (- 8 -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 669>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 8 -) (V 8 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 8 -) (- 8 -) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 8 -) (- 8 -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 670>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 8 -) (V 8 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 8 -) (- 8 -) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 8 -) (- 8 -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 671>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 8 -) (V 7 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 665
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 8 -) (L 7 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 8 -) (V 7 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 672>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 7 -) (V 7 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 672
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 7 -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 7 -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 673>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 7 -) (V 7 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 669
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 7 -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 7 -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 674>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 7 -) (V 7 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 668
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 7 -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 7 -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 675>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 7 -) (V 7 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 667
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 7 -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 7 -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 676>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 6 -) (V 7 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 6 -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 6 -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 677>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 6 -) (V 6 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 6 -) (R 6 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 6 -) (V 6 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 678>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 6 -) (V 6 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 6 -) (- 6 -) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 6 -) (- 6 -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 679>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 6 -) (V 6 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 677
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 6 -) (- 6 -) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 6 -) (- 6 -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 680>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 6 -) (V 6 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 6 -) (- 6 -) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 6 -) (- 6 -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 681>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 6 -) (V 5 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 6 -) (L 5 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 6 -) (V 5 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 682>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 5 -) (V 5 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 690
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 5 -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 5 -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 683>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 5 -) (V 5 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 687
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 5 -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 5 -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 684>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 5 -) (V 5 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 686
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 5 -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 5 -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 685>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 5 -) (V 5 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 5 -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 5 -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 686>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 4 -) (V 5 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 692
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 4 -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 4 -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 687>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 4 -) (V 4 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 699
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 4 -) (R 4 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 4 -) (V 4 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 688>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 4 -) (V 4 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 696
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 4 -) (- 4 -) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 4 -) (- 4 -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 689>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 4 -) (V 4 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 695
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 4 -) (- 4 -) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 4 -) (- 4 -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 690>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 4 -) (V 4 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 694
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 4 -) (- 4 -) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 4 -) (- 4 -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 691>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 4 -) (V 3 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 701
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 4 -) (L 3 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 4 -) (V 3 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 692>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 3 -) (V 3 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 708
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 3 -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 3 -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 693>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 3 -) (V 3 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 705
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 3 -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 3 -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 694>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 3 -) (V 3 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 704
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 3 -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 3 -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 695>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 3 -) (V 3 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 703
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 3 -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 3 -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 696>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 2 -) (V 3 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 710
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R 2 -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 2 -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 697>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 2 -) (V 2 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 717
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 2 -) (R 2 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 2 -) (V 2 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 698>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 2 -) (V 2 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 714
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 2 -) (- 2 -) (R - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 2 -) (- 2 -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 699>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 2 -) (V 2 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 713
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 2 -) (- 2 -) (D - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 2 -) (- 2 -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 700>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 2 -) (V 2 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 712
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 2 -) (- 2 -) (L - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 2 -) (- 2 -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 701>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 719
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 2 -) (L 1 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- 2 -) (V 1 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 702>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 1 -) (V 1 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 726
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (L 1 -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V 1 -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 703>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 1 -) (V 1 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 723
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (L - -) (- 1 -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 1 -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 704>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 1 -) (V 1 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 722
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (U - -) (- 1 -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 1 -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 705>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V 1 -) (V 1 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 721
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (R - -) (- 1 -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (V - -) (- 1 -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 706>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V - -) (V 1 -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 728
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (R - -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (V - -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 707>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 735
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 708>
SELECTED ACTION: Turn
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 734
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 709>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 13 18) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 736
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (D 13 18) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 13 18) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 710>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 13 18) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 733
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 13 18) (- - 3) (- - -)
4 (- - -) (- - 4) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 13 18) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 711>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 13 18) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 732
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 13 18) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 13 18) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 712>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 13 18) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 731
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 13 18) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 13 18) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 713>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 733
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (U 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 714>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 12 23) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 730
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 12 23) (- 2 3) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 715>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 5 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 732
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (U 11 22) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 5 -) (- - -) (- - -)
1 (- - -) (- 18 26) (V 11 22) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 716>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 4 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 739
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U 4 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V 4 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 717>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 748
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R 3 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V 3 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 718>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 745
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (R - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (V - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 719>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 744
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (D - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (V - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 720>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V 1 2) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 746
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (D 1 2) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (V 1 2) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 721>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V 1 2) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 743
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 1 2) (- - -)
2 (- - -) (- - -) (- - -) (D - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 1 2) (- - -)
2 (- - -) (- - -) (- - -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 722>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V 1 2) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 742
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 1 2) (- - -)
2 (- - -) (- - -) (- - -) (L - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 1 2) (- - -)
2 (- - -) (- - -) (- - -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 723>
SELECTED ACTION: Turn
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V 1 2) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 741
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 1 2) (- - -)
2 (- - -) (- - -) (- - -) (U - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- 1 2) (- - -)
2 (- - -) (- - -) (- - -) (V - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 724>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 743
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (U - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (V - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 725>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 740
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (U - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (V - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 726>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 739
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (R - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (V - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 727>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 738
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (D - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (V - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 728>
SELECTED ACTION: Turn
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 737
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (L - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 3 -) (V - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 729>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 744
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L 2 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V 2 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 730>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 736
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - 2) (- 2 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 2) (- 2 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 731>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 733
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 732>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 732
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 733>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 731
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 734>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 2 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 723
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 1) (- 2 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 1) (- 2 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 735>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 730
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R 1 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V 1 -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 736>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 727
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 737>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 726
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 738>
SELECTED ACTION: Turn
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 725
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (L - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 739>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 732
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (L - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 740>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 731
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (U - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 741>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 730
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 742>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 729
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (D - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 743>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 10 21) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 731
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (D 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (V 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 744>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 10 21) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 728
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 745>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 10 21) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 11 16) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 730
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (D 11 16) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 11 16) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 746>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 10 21) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 11 16) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 727
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 11 16) (- - 3) (- - -)
4 (- - -) (- - 4) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 11 16) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 747>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 10 21) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 11 16) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 726
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 11 16) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 11 16) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 748>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 10 21) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 11 16) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 725
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 11 16) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 11 16) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 749>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 10 21) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 10 15) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 727
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (U 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 750>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 10 21) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 10 15) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 724
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 751>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 9 20) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 10 15) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 726
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (U 9 20) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (V 9 20) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 752>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 9 20) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 10 15) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 723
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (U - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 9 20) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 9 20) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 753>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 9 20) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 10 15) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 722
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 9 20) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 9 20) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 754>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 9 20) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 10 15) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 721
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (D - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 9 20) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 9 20) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 755>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 8 19) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 10 15) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 723
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (D 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (V 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 756>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 8 19) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 10 15) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 720
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 757>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 8 19) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 9 14) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 722
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (D 9 14) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 9 14) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 758>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 8 19) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 9 14) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 719
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 9 14) (- - 3) (- - -)
4 (- - -) (- - 4) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 9 14) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 759>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 8 19) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 9 14) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 718
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 9 14) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 9 14) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 760>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 8 19) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 9 14) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 717
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 9 14) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 9 14) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 761>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 8 19) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 8 13) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 719
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (U 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 762>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 8 19) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 8 13) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 716
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 763>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 7 18) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 8 13) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 718
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (U 7 18) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (V 7 18) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 764>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 7 18) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 8 13) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 715
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (U - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 7 18) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 7 18) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 765>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 7 18) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 8 13) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 714
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 7 18) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 7 18) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 766>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 7 18) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 8 13) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 713
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (D - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 7 18) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 7 18) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 767>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 6 17) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 8 13) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 715
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (D 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (V 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 768>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 6 17) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 8 13) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 712
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 769>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 6 17) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 7 12) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 714
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (D 7 12) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 7 12) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 770>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 6 17) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 7 12) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 711
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 7 12) (- - 3) (- - -)
4 (- - -) (- - 4) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 7 12) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 771>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 6 17) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 7 12) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 710
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 7 12) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 7 12) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 772>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 6 17) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 7 12) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 709
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 7 12) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 7 12) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 773>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 6 17) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 6 11) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 711
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (U 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 774>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 6 17) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 6 11) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 708
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 775>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 5 16) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 6 11) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 710
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (U 5 16) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (V 5 16) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 776>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 5 16) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 6 11) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 707
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (U - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 5 16) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 5 16) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 777>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 5 16) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 6 11) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 706
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 5 16) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 5 16) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 778>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 5 16) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 6 11) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 705
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (D - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 5 16) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 5 16) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 779>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 4 15) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 6 11) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 707
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (D 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (V 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 780>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 4 15) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 6 11) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 704
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 781>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 4 15) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 5 10) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 706
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (D 5 10) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 5 10) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 782>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 4 15) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 5 10) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 703
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 5 10) (- - 3) (- - -)
4 (- - -) (- - 4) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 5 10) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 783>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 4 15) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 5 10) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 702
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 5 10) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 5 10) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 784>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 4 15) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 5 10) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 701
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 5 10) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 5 10) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 785>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 4 15) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 4 9) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 703
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (U 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 786>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 4 15) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 4 9) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 700
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 787>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 3 14) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 4 9) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 702
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (U 3 14) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (V 3 14) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 788>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 3 14) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 4 9) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 699
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (U - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 3 14) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 3 14) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 789>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 3 14) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 4 9) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 698
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 3 14) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 3 14) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 790>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 3 14) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 4 9) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 697
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (D - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 3 14) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 3 14) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 791>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 2 13) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 4 9) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 699
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (D 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (V 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 792>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 2 13) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 4 9) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 696
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 793>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 2 13) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 3 8) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 698
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (D 3 8) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 3 8) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 794>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 2 13) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 3 8) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 695
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 3 8) (- - 3) (- - -)
4 (- - -) (- - 4) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 3 8) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 795>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 2 13) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 3 8) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 694
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 3 8) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 3 8) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 796>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 2 13) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 3 8) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 693
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 3 8) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 3 8) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 797>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 2 13) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 2 7) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 695
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (U 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 798>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 2 13) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 2 7) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 692
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 799>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 1 12) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 2 7) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 694
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (U 1 12) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (V 1 12) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 800>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 1 12) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 2 7) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 691
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (U - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 1 12) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 1 12) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 801>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 1 12) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 2 7) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 690
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 1 12) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 1 12) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 802>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V 1 12) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 2 7) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 689
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (D - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 1 12) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- 1 12) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 803>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 2 7) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 691
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (D - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (V - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 804>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 2 7) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 688
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 805>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 1 6) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 690
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (D 1 6) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V 1 6) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 806>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 1 6) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 687
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 1 6) (- - 3) (- - -)
4 (- - -) (- - 4) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 1 6) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 807>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 1 6) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 686
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 1 6) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 1 6) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 808>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V 1 6) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 1 6) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- 1 6) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 809>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 687
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (U - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (V - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 810>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 684
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 811>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 812>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (R - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (V - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 813>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 677
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (R - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (V - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 814>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (D - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (V - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 815>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 673
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (D - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (V - -)
4 (- - -) (- - 4) (- - -) (- - -) (- - -)
<STEP 816>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 670
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 817>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 669
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 818>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 666
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 819>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 663
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 820>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 662
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 821>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 822>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 823>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 824>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 825>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 826>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 827>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 828>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 829>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 645
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 830>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 642
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 831>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 639
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 832>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 638
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 833>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 637
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 834>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 634
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 835>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 631
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 836>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 630
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 837>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 629
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 838>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 626
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 839>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 623
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 840>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 622
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 841>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 621
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 842>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 618
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 843>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 615
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 844>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 614
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 845>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 613
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 846>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 610
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 847>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 607
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 848>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 606
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 849>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 605
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 850>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 602
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 851>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 599
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 852>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 598
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 853>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 597
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 854>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 594
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 855>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 591
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 856>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 590
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 857>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 589
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 858>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 586
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 859>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 583
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 860>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 582
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 861>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 581
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 862>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 578
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 863>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 575
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 864>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 574
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 865>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 573
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 866>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 570
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 867>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 567
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 868>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 566
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 869>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 565
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 870>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 562
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 871>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 559
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 872>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 558
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 873>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 557
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 874>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 554
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 875>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 551
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 876>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 550
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 877>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 878>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 546
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 879>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 543
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 880>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 542
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 881>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 541
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 882>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 538
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 883>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 535
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 884>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 534
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 885>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 533
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 886>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 530
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 887>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 527
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 888>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 526
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 889>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 525
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 890>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 522
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 891>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 519
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 892>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 518
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 893>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 517
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 894>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 514
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 895>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 896>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 510
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 897>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 509
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 898>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 506
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 899>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 503
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 900>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 502
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 901>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 501
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 902>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 498
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 903>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 495
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 904>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 494
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 905>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 493
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 906>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 490
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 907>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 487
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 908>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 486
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 909>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 485
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 910>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 482
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 911>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 479
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 912>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 478
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 913>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 477
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 914>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 474
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 915>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 471
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 916>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 470
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 917>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 469
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 918>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 466
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 919>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 463
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 920>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 462
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 921>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 461
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 922>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 458
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 923>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 455
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 924>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 454
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 925>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 453
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 926>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 450
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 927>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 447
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 928>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 446
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 929>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 445
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 930>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 442
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 931>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 439
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 932>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 438
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 933>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 437
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 934>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 434
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 935>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 431
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 936>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 430
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 937>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 429
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 938>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 426
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 939>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 423
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 940>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 422
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 941>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 421
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 942>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 418
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 943>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 415
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 944>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 414
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 945>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 413
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 946>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 410
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 947>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 407
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 948>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 406
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 949>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 405
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 950>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 402
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 951>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 399
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 952>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 398
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 953>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 397
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 954>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 394
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 955>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 391
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 956>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 390
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 957>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 389
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 958>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 386
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 959>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 383
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 960>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 382
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 961>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 381
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 962>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 378
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 963>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 375
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 964>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 374
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 965>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 373
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 966>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 370
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 967>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 367
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 968>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 366
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 969>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 365
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 970>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 362
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 971>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 359
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 972>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 358
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 973>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 357
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 974>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 354
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 975>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 351
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 976>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 350
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 977>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 349
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 978>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 346
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 979>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 343
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 980>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 342
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 981>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 341
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 982>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 338
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 983>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 335
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 984>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 334
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 985>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 333
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 986>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 330
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 987>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 327
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 988>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 326
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 989>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 325
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 990>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 322
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 991>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 319
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 992>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 318
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 993>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 317
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 994>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 995>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 996>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 997>
SELECTED ACTION: Turn
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (V - -) (- - -) (- - -)
<STEP 998>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (V - -) (- - -)
<STEP 999>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STEP 1000>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - -) (V - -) (V - -)
1 (V - -) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- - -) (- - -) (- - -)
1 (- - -) (- 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - -) (V - -)
<STARTING>
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 16 17) (- 27 18)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 16 17) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 16 17) (- 27 18)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 15 16) (- 27 18)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 15 16) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 15 16) (- 27 18)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 14 15) (- 27 18)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 14 15) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 14 15) (- 27 18)
<STEP 3>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 13 14) (- 27 18)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 13 14) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 13 14) (- 27 18)
<STEP 4>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 12 13) (- 27 18)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 12 13) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 12 13) (- 27 18)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 11 12) (- 27 18)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 11 12) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 11 12) (- 27 18)
<STEP 6>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 10 11) (- 27 18)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 10 11) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 10 11) (- 27 18)
<STEP 7>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 9 10) (- 27 18)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 9 10) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 9 10) (- 27 18)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 8 9) (- 27 18)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 8 9) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 8 9) (- 27 18)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 7 8) (- 27 18)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 7 8) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 7 8) (- 27 18)
<STEP 10>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 6 7) (- 27 18)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 6 7) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 6 7) (- 27 18)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 5 6) (- 27 18)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 5 6) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 5 6) (- 27 18)
<STEP 12>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 4 5) (- 27 18)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 4 5) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 4 5) (- 27 18)
<STEP 13>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 3 4) (- 27 18)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 3 4) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 3 4) (- 27 18)
<STEP 14>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 2 3) (- 27 18)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 2 3) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 2 3) (- 27 18)
<STEP 15>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 1 2) (- 27 18)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L 1 2) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V 1 2) (- 27 18)
<STEP 16>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V - 1) (- 27 18)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (L - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (- 21 18) (V - 1) (- 27 18)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 20 17) (V - 1) (- 27 18)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 20 17) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 20 17) (V - 1) (- 27 18)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 19 16) (V - 1) (- 27 18)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 19 16) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 19 16) (V - 1) (- 27 18)
<STEP 19>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 18 15) (V - 1) (- 27 18)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 18 15) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 18 15) (V - 1) (- 27 18)
<STEP 20>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 17 14) (V - 1) (- 27 18)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 17 14) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 17 14) (V - 1) (- 27 18)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 16 13) (V - 1) (- 27 18)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 16 13) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 16 13) (V - 1) (- 27 18)
<STEP 22>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 15 12) (V - 1) (- 27 18)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 15 12) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 15 12) (V - 1) (- 27 18)
<STEP 23>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 14 11) (V - 1) (- 27 18)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 14 11) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 14 11) (V - 1) (- 27 18)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 13 10) (V - 1) (- 27 18)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 13 10) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 13 10) (V - 1) (- 27 18)
<STEP 25>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 12 9) (V - 1) (- 27 18)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 12 9) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 12 9) (V - 1) (- 27 18)
<STEP 26>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 11 8) (V - 1) (- 27 18)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 11 8) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 11 8) (V - 1) (- 27 18)
<STEP 27>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 10 7) (V - 1) (- 27 18)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 10 7) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 10 7) (V - 1) (- 27 18)
<STEP 28>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 9 6) (V - 1) (- 27 18)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 9 6) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 9 6) (V - 1) (- 27 18)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 8 5) (V - 1) (- 27 18)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 8 5) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 8 5) (V - 1) (- 27 18)
<STEP 30>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 7 4) (V - 1) (- 27 18)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 7 4) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 7 4) (V - 1) (- 27 18)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 6 3) (V - 1) (- 27 18)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 6 3) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 6 3) (V - 1) (- 27 18)
<STEP 32>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 5 2) (V - 1) (- 27 18)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 5 2) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 5 2) (V - 1) (- 27 18)
<STEP 33>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 4 1) (V - 1) (- 27 18)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 4 1) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 4 1) (V - 1) (- 27 18)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 3 -) (V - 1) (- 27 18)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 3 -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 3 -) (V - 1) (- 27 18)
<STEP 35>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 2 -) (V - 1) (- 27 18)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 2 -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 2 -) (V - 1) (- 27 18)
<STEP 36>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 1 -) (V - 1) (- 27 18)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L 1 -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V 1 -) (V - 1) (- 27 18)
<STEP 37>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V - -) (V - 1) (- 27 18)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (L - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (- 22 26) (V - -) (V - 1) (- 27 18)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 21 25) (V - -) (V - 1) (- 27 18)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 21 25) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 21 25) (V - -) (V - 1) (- 27 18)
<STEP 39>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 20 24) (V - -) (V - 1) (- 27 18)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 20 24) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 20 24) (V - -) (V - 1) (- 27 18)
<STEP 40>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 19 23) (V - -) (V - 1) (- 27 18)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 19 23) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 19 23) (V - -) (V - 1) (- 27 18)
<STEP 41>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 18 22) (V - -) (V - 1) (- 27 18)
Agent performance: 318
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 18 22) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 18 22) (V - -) (V - 1) (- 27 18)
<STEP 42>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 17 21) (V - -) (V - 1) (- 27 18)
Agent performance: 323
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 17 21) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 17 21) (V - -) (V - 1) (- 27 18)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 16 20) (V - -) (V - 1) (- 27 18)
Agent performance: 328
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 16 20) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 16 20) (V - -) (V - 1) (- 27 18)
<STEP 44>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 15 19) (V - -) (V - 1) (- 27 18)
Agent performance: 333
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 15 19) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 15 19) (V - -) (V - 1) (- 27 18)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 14 18) (V - -) (V - 1) (- 27 18)
Agent performance: 338
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 14 18) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 14 18) (V - -) (V - 1) (- 27 18)
<STEP 46>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 13 17) (V - -) (V - 1) (- 27 18)
Agent performance: 343
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 13 17) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 13 17) (V - -) (V - 1) (- 27 18)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 12 16) (V - -) (V - 1) (- 27 18)
Agent performance: 348
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 12 16) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 12 16) (V - -) (V - 1) (- 27 18)
<STEP 48>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 11 15) (V - -) (V - 1) (- 27 18)
Agent performance: 353
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 11 15) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 11 15) (V - -) (V - 1) (- 27 18)
<STEP 49>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 10 14) (V - -) (V - 1) (- 27 18)
Agent performance: 358
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 10 14) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 10 14) (V - -) (V - 1) (- 27 18)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 9 13) (V - -) (V - 1) (- 27 18)
Agent performance: 363
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 9 13) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 9 13) (V - -) (V - 1) (- 27 18)
<STEP 51>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 8 12) (V - -) (V - 1) (- 27 18)
Agent performance: 368
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 8 12) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 8 12) (V - -) (V - 1) (- 27 18)
<STEP 52>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 7 11) (V - -) (V - 1) (- 27 18)
Agent performance: 373
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 7 11) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 7 11) (V - -) (V - 1) (- 27 18)
<STEP 53>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 6 10) (V - -) (V - 1) (- 27 18)
Agent performance: 378
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 6 10) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 6 10) (V - -) (V - 1) (- 27 18)
<STEP 54>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 5 9) (V - -) (V - 1) (- 27 18)
Agent performance: 383
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 5 9) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 5 9) (V - -) (V - 1) (- 27 18)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 4 8) (V - -) (V - 1) (- 27 18)
Agent performance: 388
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 4 8) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 4 8) (V - -) (V - 1) (- 27 18)
<STEP 56>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 3 7) (V - -) (V - 1) (- 27 18)
Agent performance: 393
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 3 7) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 3 7) (V - -) (V - 1) (- 27 18)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 2 6) (V - -) (V - 1) (- 27 18)
Agent performance: 398
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 2 6) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 2 6) (V - -) (V - 1) (- 27 18)
<STEP 58>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 1 5) (V - -) (V - 1) (- 27 18)
Agent performance: 403
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L 1 5) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V 1 5) (V - -) (V - 1) (- 27 18)
<STEP 59>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 408
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (L - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- 25 20) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 24 19) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 412
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (L 24 19) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 24 19) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 416
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 23 18) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 23 18) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 22 17) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 421
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 22 17) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 22 17) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 63>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 21 16) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 426
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 21 16) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 21 16) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 64>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 20 15) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 431
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 20 15) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 20 15) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 65>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 19 14) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 436
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 19 14) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 19 14) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 66>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 18 13) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 441
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 18 13) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 18 13) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 67>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 17 12) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 446
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 17 12) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 17 12) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 68>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 16 11) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 451
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 16 11) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 16 11) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 69>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 15 10) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 456
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 15 10) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 15 10) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 70>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 14 9) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 461
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 14 9) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 14 9) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 71>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 13 8) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 466
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 13 8) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 13 8) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 72>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 12 7) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 471
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 12 7) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 12 7) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 73>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 11 6) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 476
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 11 6) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 11 6) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 74>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 10 5) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 481
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 10 5) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 10 5) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 75>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 9 4) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 486
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 9 4) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 9 4) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 76>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 8 3) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 491
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 8 3) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 8 3) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 77>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 7 2) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 496
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 7 2) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 7 2) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 78>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 6 1) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 501
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 6 1) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 6 1) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 79>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 5 -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 506
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 5 -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 5 -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 80>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 4 -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 516
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 4 -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 4 -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 81>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 3 -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 526
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 3 -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 3 -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 82>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 2 -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 536
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 2 -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 2 -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 83>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 1 -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 546
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U 1 -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V 1 -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 84>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 556
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (U - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- 17 15) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 560
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 16 14) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 86>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 565
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 15 13) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 15 13) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 87>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 570
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 14 12) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 14 12) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 88>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 575
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 13 11) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 13 11) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 89>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 580
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 12 10) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 12 10) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 90>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 585
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 11 9) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 11 9) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 91>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 590
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 10 8) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 10 8) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 92>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 595
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 9 7) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 9 7) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 93>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 600
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 8 6) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 8 6) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 94>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 605
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 7 5) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 7 5) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 95>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 610
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 6 4) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 6 4) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 96>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 615
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 5 3) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 5 3) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 97>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 620
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 4 2) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 4 2) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 98>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 625
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 3 1) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 3 1) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 99>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 630
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 2 -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 2 -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 100>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 640
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U 1 -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V 1 -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 101>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (U - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- 23 21) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 22 20) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 103>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 21 19) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 21 19) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 104>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 664
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 20 18) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 20 18) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 105>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 669
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 19 17) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 19 17) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 106>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 18 16) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 18 16) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 107>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 17 15) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 17 15) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 108>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 684
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 16 14) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 16 14) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 109>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 689
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 15 13) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 15 13) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 110>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 694
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 14 12) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 14 12) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 111>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 699
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 13 11) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 13 11) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 112>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 704
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 12 10) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 12 10) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 113>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 709
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 11 9) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 11 9) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 114>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 714
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 10 8) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 10 8) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 115>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 719
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 9 7) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 9 7) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 116>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 724
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 8 6) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 8 6) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 117>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 729
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 7 5) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 7 5) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 118>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 734
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 6 4) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 6 4) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 119>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 5 3) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 739
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 5 3) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 5 3) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 120>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 4 2) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 744
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 4 2) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 4 2) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 121>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 3 1) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 749
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 3 1) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 3 1) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 122>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 2 -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 754
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 2 -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 2 -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 123>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 1 -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 764
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U 1 -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V 1 -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 124>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 774
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (U - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- 19 22) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 778
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 18 21) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 126>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 783
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 17 20) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 17 20) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 127>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 788
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 16 19) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 16 19) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 128>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 793
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 15 18) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 15 18) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 129>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 798
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 14 17) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 14 17) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 130>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 803
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 13 16) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 13 16) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 131>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 808
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 12 15) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 12 15) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 132>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 813
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 11 14) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 11 14) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 133>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 818
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 10 13) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 10 13) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 134>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 823
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 9 12) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 9 12) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 135>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 828
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 8 11) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 8 11) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 136>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 833
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 7 10) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 7 10) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 137>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 838
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 6 9) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 6 9) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 138>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 843
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 5 8) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 5 8) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 139>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 848
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 4 7) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 4 7) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 140>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 853
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 3 6) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 3 6) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 141>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 858
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 2 5) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 2 5) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 142>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 1 4) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 863
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U 1 4) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V 1 4) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 143>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 868
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (U - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 15) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 14) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 872
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 11 14) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 14) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 876
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 10 13) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 13) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 146>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 12) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 881
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 9 12) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 12) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 147>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 886
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 8 11) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 11) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 148>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 10) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 891
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 7 10) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 10) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 149>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 896
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 6 9) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 9) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 150>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 8) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 901
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 5 8) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 8) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 151>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 906
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 7) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 7) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 152>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 6) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 911
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 3 6) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 6) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 153>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 916
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 5) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 5) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 154>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 4) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 921
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 1 4) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 4) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 155>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 926
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - 3) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (- 17 24) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 16 23) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 930
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 16 23) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 16 23) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 157>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 15 22) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 935
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 15 22) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 15 22) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 158>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 14 21) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 940
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 14 21) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 14 21) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 159>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 13 20) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 945
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 13 20) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 13 20) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 160>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 12 19) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 950
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 12 19) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 12 19) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 161>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 955
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 11 18) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 11 18) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 162>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 10 17) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 960
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 10 17) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 10 17) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 163>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 9 16) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 965
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 9 16) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 9 16) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 164>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 8 15) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 970
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 8 15) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 8 15) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 165>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 7 14) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 975
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 7 14) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 7 14) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 166>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 6 13) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 980
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 6 13) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 6 13) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 167>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 5 12) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 985
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 5 12) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 5 12) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 168>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 4 11) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 990
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 4 11) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 4 11) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 169>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 3 10) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 995
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 3 10) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 3 10) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 170>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 2 9) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1000
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 2 9) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 2 9) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 171>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 1 8) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1005
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R 1 8) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V 1 8) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 172>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1010
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (R - 7) (- 26 18) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (- 26 18) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 25 17) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1014
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 25 17) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 25 17) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 174>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 24 16) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1019
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 24 16) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 24 16) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 175>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 23 15) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1024
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 23 15) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 23 15) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 176>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 22 14) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1029
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 22 14) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 22 14) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 177>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 21 13) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1034
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 21 13) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 21 13) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 178>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 20 12) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1039
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 20 12) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 20 12) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 179>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 19 11) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1044
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 19 11) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 19 11) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 180>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 18 10) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1049
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 18 10) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 18 10) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 181>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 17 9) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1054
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 17 9) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 17 9) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 182>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 16 8) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1059
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 16 8) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 16 8) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 183>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 15 7) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1064
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 15 7) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 15 7) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 184>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 14 6) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1069
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 14 6) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 14 6) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 185>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 13 5) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1074
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 13 5) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 13 5) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 186>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 12 4) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1079
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 12 4) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 12 4) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 187>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 11 3) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1084
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 11 3) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 11 3) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 188>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 10 2) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1089
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 10 2) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 10 2) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 189>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 9 1) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1094
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 9 1) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 9 1) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 190>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 8 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1099
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 8 -) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 8 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 191>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 7 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 7 -) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 7 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 192>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 6 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 6 -) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 6 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 193>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 5 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 5 -) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 5 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 194>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 4 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 4 -) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 4 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 195>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 3 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 3 -) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 3 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 196>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 2 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 2 -) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 2 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 197>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 1 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R 1 -) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V 1 -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 198>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R - -) (- 15 17) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (- 15 17) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 199>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 14 16) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 14 16) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 14 16) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 200>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 13 15) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 13 15) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 13 15) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 201>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 12 14) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 12 14) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 12 14) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 202>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 11 13) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 11 13) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 11 13) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 203>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 10 12) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 10 12) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 10 12) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 204>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 9 11) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 9 11) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 9 11) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 205>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 8 10) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 8 10) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 8 10) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 206>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 7 9) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 7 9) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 7 9) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 207>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 6 8) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 6 8) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 6 8) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 208>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 5 7) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 5 7) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 5 7) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 209>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 4 6) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 4 6) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 4 6) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 210>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 3 5) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 3 5) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 3 5) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 211>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 2 4) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 2 4) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 2 4) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 212>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 1 3) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R 1 3) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V 1 3) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 213>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R - 2) (- 16 21)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (- 16 21)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 214>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 15 20)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (R 15 20)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 15 20)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 14 19)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 14 19)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 14 19)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 216>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 13 18)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 13 18)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 13 18)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 217>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 12 17)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 12 17)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 12 17)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 218>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 11 16)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 11 16)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 11 16)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 219>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 10 15)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 10 15)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 10 15)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 220>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 9 14)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 9 14)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 9 14)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 221>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 8 13)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 8 13)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 8 13)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 222>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 7 12)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 7 12)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 7 12)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 223>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 6 11)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 6 11)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 6 11)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 224>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 5 10)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 5 10)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 5 10)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 225>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 4 9)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 4 9)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 4 9)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 226>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 3 8)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1316
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 3 8)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 3 8)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 227>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 2 7)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1321
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 2 7)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 2 7)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 228>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 1 6)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1326
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D 1 6)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V 1 6)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 229>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1331
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (D - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (- 20 19)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1335
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 19 18)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 19 18)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 231>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1340
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 18 17)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 18 17)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 232>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1345
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 17 16)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 17 16)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 233>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1350
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 16 15)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 16 15)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 234>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1355
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 15 14)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 15 14)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 235>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1360
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 14 13)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 14 13)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 236>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1365
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 13 12)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 13 12)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 237>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1370
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 12 11)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 12 11)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 238>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1375
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 11 10)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 11 10)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 239>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1380
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 10 9)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 10 9)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 240>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1385
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 9 8)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 9 8)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 241>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1390
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 8 7)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 8 7)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 242>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1395
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 7 6)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 7 6)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 243>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1400
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 6 5)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 6 5)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 244>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1405
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 5 4)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 5 4)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 245>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1410
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 4 3)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 4 3)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 246>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 3 2)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1415
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 3 2)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 3 2)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 247>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 2 1)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1420
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 2 1)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 2 1)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 248>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 1 -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1425
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D 1 -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V 1 -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 249>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1435
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (D - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (- 21 28)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 250>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1439
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 20 27)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 20 27)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 251>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1444
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 19 26)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 19 26)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 252>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1449
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 18 25)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 18 25)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 253>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1454
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 17 24)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 17 24)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 254>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1459
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 16 23)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 16 23)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 255>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1464
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 15 22)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 15 22)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 256>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1469
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 14 21)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 14 21)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 257>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1474
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 13 20)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 13 20)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 258>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1479
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 12 19)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 12 19)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 259>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1484
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 11 18)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 11 18)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 260>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1489
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 10 17)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 10 17)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 261>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1494
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 9 16)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 9 16)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 262>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1499
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 8 15)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 8 15)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 263>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1504
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 7 14)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 7 14)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 264>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1509
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 6 13)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 6 13)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 265>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1514
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 5 12)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 5 12)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 266>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 4 11)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1519
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 4 11)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 4 11)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 267>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 3 10)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1524
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 3 10)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 3 10)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 268>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 2 9)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1529
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 2 9)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 2 9)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 269>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 1 8)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1534
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D 1 8)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V 1 8)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 270>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1539
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (D - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (- 29 21)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 271>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1543
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 28 20)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 28 20)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 272>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1548
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 27 19)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 27 19)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 273>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1553
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 26 18)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 26 18)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 274>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1558
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 25 17)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 25 17)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 275>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1563
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 24 16)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 24 16)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 276>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1568
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 23 15)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 23 15)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 277>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1573
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 22 14)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 22 14)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 278>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1578
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 21 13)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 21 13)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 279>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1583
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 20 12)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 20 12)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 280>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1588
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 19 11)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 19 11)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 281>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1593
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 18 10)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 18 10)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 282>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1598
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 17 9)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 17 9)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 283>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1603
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 16 8)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 16 8)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 284>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1608
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 15 7)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 15 7)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 285>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1613
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 14 6)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 14 6)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 286>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1618
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 13 5)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 13 5)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 287>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 12 4)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1623
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 12 4)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 12 4)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 288>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 11 3)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1628
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 11 3)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 11 3)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 289>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 10 2)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1633
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 10 2)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 10 2)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 290>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 9 1)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1638
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 9 1)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 9 1)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 291>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 8 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1643
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 8 -)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 8 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 292>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 7 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 7 -)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 7 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 293>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 6 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1663
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 6 -)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 6 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 294>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 5 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1673
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 5 -)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 5 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 295>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 4 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 4 -)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 4 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 296>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 3 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1693
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 3 -)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 3 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 297>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 2 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1703
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 2 -)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 2 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 298>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 1 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1713
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D 1 -)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V 1 -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 299>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
Agent performance: 1723
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- 27 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (- 27 18)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 26 17)
Agent performance: 1727
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (D 26 17)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 26 17)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 25 16)
Agent performance: 1731
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 25 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 25 16)
<STEP 302>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 24 15)
Agent performance: 1736
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 24 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 24 15)
<STEP 303>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 23 14)
Agent performance: 1741
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 23 14)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 23 14)
<STEP 304>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 22 13)
Agent performance: 1746
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 22 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 22 13)
<STEP 305>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 21 12)
Agent performance: 1751
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 21 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 21 12)
<STEP 306>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 20 11)
Agent performance: 1756
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 20 11)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 20 11)
<STEP 307>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 19 10)
Agent performance: 1761
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 19 10)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 19 10)
<STEP 308>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 18 9)
Agent performance: 1766
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 18 9)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 18 9)
<STEP 309>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 17 8)
Agent performance: 1771
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 17 8)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 17 8)
<STEP 310>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 16 7)
Agent performance: 1776
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 16 7)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 16 7)
<STEP 311>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 15 6)
Agent performance: 1781
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 15 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 15 6)
<STEP 312>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 14 5)
Agent performance: 1786
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 14 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 14 5)
<STEP 313>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 13 4)
Agent performance: 1791
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 13 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 13 4)
<STEP 314>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 12 3)
Agent performance: 1796
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 12 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 12 3)
<STEP 315>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 11 2)
Agent performance: 1801
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 11 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 11 2)
<STEP 316>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 10 1)
Agent performance: 1806
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 10 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 10 1)
<STEP 317>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 9 -)
Agent performance: 1811
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 9 -)
<STEP 318>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 8 -)
Agent performance: 1821
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 8 -)
<STEP 319>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 7 -)
Agent performance: 1831
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 7 -)
<STEP 320>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 6 -)
Agent performance: 1841
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 6 -)
<STEP 321>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 5 -)
Agent performance: 1851
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 5 -)
<STEP 322>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 4 -)
Agent performance: 1861
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 4 -)
<STEP 323>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 3 -)
Agent performance: 1871
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 3 -)
<STEP 324>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 2 -)
Agent performance: 1881
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 2 -)
<STEP 325>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 1 -)
Agent performance: 1891
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V 1 -)
<STEP 326>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1901
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1900
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 328>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1897
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (U - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1896
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (R - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1895
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (D - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1894
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (- 18 21) (L - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (- 18 21) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 332>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1898
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 17 20) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 17 20) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 333>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1903
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 16 19) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 16 19) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 334>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1908
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 15 18) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 15 18) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 335>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1913
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 14 17) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 14 17) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 336>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 13 16) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1918
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 13 16) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 13 16) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 337>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 12 15) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1923
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 12 15) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 12 15) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 338>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 11 14) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1928
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 11 14) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 11 14) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 339>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 10 13) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1933
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 10 13) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 10 13) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 340>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 9 12) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1938
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 9 12) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 9 12) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 341>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 8 11) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1943
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 8 11) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 8 11) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 342>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 7 10) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1948
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 7 10) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 7 10) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 343>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 6 9) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1953
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 6 9) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 6 9) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 344>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 5 8) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1958
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 5 8) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 5 8) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 345>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 4 7) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1963
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 4 7) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 4 7) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 346>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1968
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 3 6) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 3 6) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 347>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1973
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 2 5) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 2 5) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 348>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 1 4) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1978
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L 1 4) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V 1 4) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 349>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1983
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (- 15 20) (L - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (- 15 20) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 350>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1987
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 14 19) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 14 19) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 351>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 13 18) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1992
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 13 18) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 13 18) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 352>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 1997
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 12 17) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 12 17) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 353>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 11 16) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2002
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 11 16) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 11 16) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 354>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 10 15) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2007
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 10 15) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 10 15) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 355>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 9 14) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2012
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 9 14) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 9 14) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 356>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 8 13) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2017
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 8 13) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 8 13) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 357>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 7 12) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2022
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 7 12) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 7 12) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 358>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 6 11) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2027
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 6 11) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 6 11) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 359>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 5 10) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2032
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 5 10) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 5 10) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 360>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 4 9) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2037
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 4 9) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 4 9) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 361>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 3 8) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2042
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 3 8) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 3 8) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 362>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 2 7) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2047
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 2 7) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 2 7) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 363>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 1 6) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2052
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L 1 6) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V 1 6) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 364>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2057
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- 17 18) (L - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (- 17 18) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 365>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2061
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 16 17) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 16 17) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 366>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 15 16) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2066
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 15 16) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 15 16) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 367>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 14 15) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2071
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 14 15) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 14 15) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 368>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 13 14) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2076
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 13 14) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 13 14) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 369>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 12 13) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2081
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 12 13) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 12 13) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 370>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 11 12) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2086
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 11 12) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 11 12) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 371>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 10 11) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2091
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 10 11) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 10 11) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 372>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 9 10) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2096
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 9 10) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 9 10) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 373>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 8 9) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 8 9) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 8 9) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 374>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 7 8) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 7 8) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 7 8) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 375>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 6 7) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 6 7) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 6 7) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 376>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 5 6) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 5 6) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 5 6) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 377>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 4 5) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 4 5) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 4 5) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 378>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 3 4) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 3 4) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 3 4) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 379>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 2 3) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 2 3) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 2 3) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 380>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 1 2) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L 1 2) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V 1 2) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 381>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (L - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 382>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (L - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 383>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (U - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 384>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (U - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 385>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (R - -) (- 29 18) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (- 29 18) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 386>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 28 17) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 28 17) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 28 17) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 387>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 27 16) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 27 16) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 27 16) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 388>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 26 15) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 26 15) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 26 15) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 389>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 25 14) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 25 14) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 25 14) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 390>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 24 13) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 24 13) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 24 13) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 391>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 23 12) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 23 12) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 23 12) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 392>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 22 11) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 22 11) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 22 11) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 393>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 21 10) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 21 10) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 21 10) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 394>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 20 9) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 20 9) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 20 9) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 395>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 19 8) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 19 8) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 19 8) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 396>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 18 7) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 18 7) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 18 7) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 397>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 17 6) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 17 6) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 17 6) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 398>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 16 5) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 16 5) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 16 5) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 399>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 15 4) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 15 4) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 15 4) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 400>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 14 3) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 14 3) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 14 3) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 401>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 13 2) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 13 2) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 13 2) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 402>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 12 1) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 12 1) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 12 1) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 403>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 11 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 11 -) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 11 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 404>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 10 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 10 -) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 10 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 405>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 9 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 9 -) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 9 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 406>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 8 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 8 -) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 8 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 407>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 7 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 7 -) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 7 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 408>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 6 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 6 -) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 6 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 409>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 5 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 5 -) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 5 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 410>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 4 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 4 -) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 4 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 411>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 3 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 3 -) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 3 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 412>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 2 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 2 -) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 2 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 413>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 1 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2322
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R 1 -) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V 1 -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 414>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2332
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (R - -) (- 29 20) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (- 29 20) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 415>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 28 19) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2336
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 28 19) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 28 19) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 416>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 27 18) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2341
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 27 18) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 27 18) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 417>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 26 17) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2346
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 26 17) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 26 17) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 418>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 25 16) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2351
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 25 16) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 25 16) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 419>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 24 15) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2356
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 24 15) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 24 15) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 420>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 23 14) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2361
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 23 14) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 23 14) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 421>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 22 13) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2366
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 22 13) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 22 13) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 422>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 21 12) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2371
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 21 12) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 21 12) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 423>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 20 11) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2376
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 20 11) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 20 11) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 424>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 19 10) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2381
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 19 10) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 19 10) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 425>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 18 9) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2386
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 18 9) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 18 9) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 426>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 17 8) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2391
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 17 8) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 17 8) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 427>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 16 7) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2396
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 16 7) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 16 7) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 428>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 15 6) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2401
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 15 6) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 15 6) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 429>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 14 5) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2406
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 14 5) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 14 5) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 430>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 13 4) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2411
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 13 4) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 13 4) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 431>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 12 3) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2416
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 12 3) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 12 3) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 432>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 11 2) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2421
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 11 2) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 11 2) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 433>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 10 1) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2426
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 10 1) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 10 1) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 434>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 9 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2431
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 9 -) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 9 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 435>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 8 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2441
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 8 -) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 8 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 436>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 7 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2451
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 7 -) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 7 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 437>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 6 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2461
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 6 -) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 6 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 438>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 5 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2471
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 5 -) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 5 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 439>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 4 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2481
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 4 -) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 4 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 440>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 3 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2491
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 3 -) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 3 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 441>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 2 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2501
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 2 -) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 2 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 442>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 1 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R 1 -) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V 1 -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 443>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2521
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (R - -) (- 14 11) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (- 14 11) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 444>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 13 10) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2525
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 13 10) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 13 10) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 445>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 12 9) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2530
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 12 9) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 12 9) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 446>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 11 8) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2535
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 11 8) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 11 8) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 447>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 10 7) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2540
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 10 7) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 10 7) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 448>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 9 6) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2545
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 9 6) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 9 6) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 449>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 8 5) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2550
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 8 5) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 8 5) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 450>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 7 4) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2555
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 7 4) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 7 4) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 451>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 6 3) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2560
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 6 3) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 6 3) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 452>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 5 2) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2565
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 5 2) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 5 2) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 453>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 4 1) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2570
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 4 1) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 4 1) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 454>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2575
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 3 -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 455>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2585
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 2 -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 456>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2595
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R 1 -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 457>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2605
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (R - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 458>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2604
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (D - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 459>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2603
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (L - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 460>
SELECTED ACTION: Turn
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2602
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- 20 21) (- - -)
2 (- - -) (- - -) (- - -) (U - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (- 20 21) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 461>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 19 20) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2606
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 19 20) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 19 20) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 462>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 18 19) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2611
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 18 19) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 18 19) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 463>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2616
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 17 18) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 17 18) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 464>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 16 17) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2621
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 16 17) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 16 17) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 465>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 15 16) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2626
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 15 16) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 15 16) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 466>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 14 15) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2631
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 14 15) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 14 15) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 467>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 13 14) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2636
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 13 14) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 13 14) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 468>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 12 13) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2641
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 12 13) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 12 13) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 469>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 11 12) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 11 12) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 11 12) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 470>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 10 11) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2651
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 10 11) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 10 11) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 471>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 9 10) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 9 10) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 9 10) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 472>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 8 9) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 8 9) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 8 9) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 473>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 7 8) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2666
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 7 8) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 7 8) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 474>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 6 7) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2671
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 6 7) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 6 7) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 475>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 5 6) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 5 6) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 5 6) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 476>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 4 5) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 4 5) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 4 5) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 477>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 3 4) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2686
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 3 4) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 3 4) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 478>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2691
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 2 3) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 2 3) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 479>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 1 2) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2696
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U 1 2) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V 1 2) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 480>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2701
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - 2) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (U - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 2) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 481>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 1) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2693
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (U - 1) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - 1) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 482>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2687
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (R - -) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 483>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2686
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (D - -) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 484>
SELECTED ACTION: Turn
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (L - -) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 485>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2682
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (L - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 486>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (U - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 487>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (R - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 488>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (D - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (- 13 24) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (- 13 24) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 489>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 12 23) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D 12 23) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 12 23) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 490>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2688
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D 11 22) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 11 22) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 491>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 10 21) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2693
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D 10 21) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 10 21) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 492>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 9 20) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2698
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D 9 20) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 9 20) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 493>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 8 19) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2703
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D 8 19) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 8 19) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 494>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 7 18) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2708
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D 7 18) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 7 18) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 495>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 6 17) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2713
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D 6 17) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 6 17) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 496>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 5 16) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2718
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D 5 16) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 5 16) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 497>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 4 15) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2723
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D 4 15) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 4 15) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 498>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 3 14) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2728
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D 3 14) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 3 14) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 499>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 2 13) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2733
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D 2 13) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 2 13) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 500>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 1 12) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2738
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D 1 12) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V 1 12) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 501>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2743
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (D - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 502>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2740
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 503>
SELECTED ACTION: Turn
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2739
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (L - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 504>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2736
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (- - 11) (- - 1) (- - -)
2 (- - -) (L - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 505>
SELECTED ACTION: Turn
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2735
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (- 19 27) (- - 11) (- - 1) (- - -)
2 (- - -) (U - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (- 19 27) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 506>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2739
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 18 26) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 18 26) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 507>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 17 25) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2744
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 17 25) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 17 25) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 508>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 16 24) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2749
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 16 24) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 16 24) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 509>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 15 23) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2754
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 15 23) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 15 23) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 510>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 14 22) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2759
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 14 22) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 14 22) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 511>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 13 21) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2764
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 13 21) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 13 21) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 512>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 12 20) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2769
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 12 20) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 12 20) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 513>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 11 19) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2774
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 11 19) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 11 19) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 514>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 10 18) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2779
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 10 18) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 10 18) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 515>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 9 17) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2784
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 9 17) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 9 17) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 516>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 8 16) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2789
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 8 16) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 8 16) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 517>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 7 15) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2794
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 7 15) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 7 15) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 518>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 6 14) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2799
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 6 14) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 6 14) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 519>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 5 13) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2804
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 5 13) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 5 13) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 520>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 4 12) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2809
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 4 12) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 4 12) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 521>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 3 11) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2814
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 3 11) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 3 11) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 522>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 2 10) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2819
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 2 10) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 2 10) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 523>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 1 9) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2824
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U 1 9) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V 1 9) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
<STEP 524>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V - 8) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
Agent performance: 2829
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 3) (- - 7) (- - -) (- - -) (- - 5)
1 (- - 3) (U - 8) (- - 11) (- - 1) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - 7)
3 (- - -) (- - 1) (- - 5) (- - 3) (- - -)
4 (- - -) (- - 4) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 3) (V - 7) (V - -) (V - -) (V - 5)
1 (V - 3) (V - 8) (V - 11) (V - 1) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - 7)
3 (V - -) (V - 1) (V - 5) (V - 3) (V - -)
4 (V - -) (V - 4) (V - -) (V - 1) (V - -)
def plot_pro_arrays(array, axis,title, mark, mkw):
axis.plot(array[3], label = 'Fully observable model based agent', marker = mark, markeredgewidth=mkw[0])
axis.plot(array[2], label = 'Fully observable single reflex agent', marker = mark, markeredgewidth=mkw[1])
axis.plot(array[0], label = 'Nonobserbable single reflex agent', marker = mark, markeredgewidth=mkw[2])
axis.plot(array[1], label = 'Nonobservable model based agent', marker = mark, markeredgewidth=mkw[3])
plt.setp(axis, xlabel='Turns')
plt.setp(axis, ylabel='Performance')
axis.set_title(title)
axis.legend()
fig, ax = plt.subplots(2,2)
plot_pro_arrays(array5, ax[0,0], '5 traps, 5 gold', '.', [5,2,2,2])
plot_pro_arrays(array10, ax[0,1], '10 traps, 10 gold', '.', [5,2,2,2])
plot_pro_arrays(array100, ax[1,0], '100 traps, 100 gold', '.', [5,2,2,2])
plot_pro_arrays(array500, ax[1,1], '500 traps, 500 gold', '.', [5,2,2,2])
fig.set_size_inches(18.5, 10.5)
fig.savefig('5-10-100-500_equal.jpg', dpi=200)
array5_1 = run_experiment(5, 1)
array5_10 = run_experiment(5, 10)
array5_100 = run_experiment(5, 100)
array5_500= run_experiment(5, 500)
393
<STARTING>
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 100
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- 1 -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 99
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- 1 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 98
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- 1 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 97
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- 1 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 1 -) (- - -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- 1 -) (- - -)
4 (- 2 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - -) (- 1 -) (- - -) (? ? ?)
4 (? ? ?) (- 2 -) (V - -) (- - -) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- 1 -)
4 (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- 1 -) (? ? ?) (? ? ?)
4 (- - -) (V 1 -) (- - -) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1
(A G T) (A G T)
3 (- - 1) (- - -)
4 (L - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1
(A G T) (A G T)
3 (- - 1) (- - -)
4 (U - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1
(A G T) (A G T)
3 (- - 1) (- - -)
4 (R - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- 1 -)
4 (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- 1 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- 1 -) (- - -)
4 (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - -) (- 1 -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- 1 -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - -) (- 1 -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- 1 -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - -) (- 1 -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- 1 -) (- - -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - -) (- 1 -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (U - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (U - -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
3 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (- - -)
1 (- - -) (- - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- 1 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (- - -)
1 (- - -) (- - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (V - -) (V - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (D - -) (- 1 -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- 1 -)
3 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (- - -)
1 (- - -) (- - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (V - -) (V - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (L - -) (- 1 -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- 1 -)
3 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (- - -)
1 (- - -) (- - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (V - -) (V - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (U - -) (- 1 -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- 1 -)
3 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (- - -)
1 (- - -) (- - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (V - -) (V - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (R - -) (- 1 -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- 1 -)
3 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (- - -)
1 (- - -) (- - -) (V - -) (V - -) (- - -)
2 (- - -) (- - -) (V - -) (V - -) (V - -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - -) (R - -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STARTING>
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 100
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- 1 -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 99
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- 1 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 98
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- 1 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 97
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- 1 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 1 -) (- - -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V 1 -) (V - -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- 1 -) (- - -)
4 (- 2 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - -) (- 1 -) (- - -) (- - -)
4 (? ? ?) (- 2 -) (V - -) (V - -) (V - -)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- 1 -)
4 (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (V 2 -) (V - -) (V - -) (V - -)
<STEP 7>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- 1 -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (V 1 -) (V - -) (V - -) (V - -)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1
(A G T) (A G T)
3 (- - 1) (- - -)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1
(A G T) (A G T)
3 (- - 1) (- - -)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1
(A G T) (A G T)
3 (- - 1) (- - -)
4 (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- 1 -)
4 (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- 1 -) (- - -)
4 (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- 1 -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- 1 -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- 1 -) (- - -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (U - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (- - 1) (- - -) (V 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (U - -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (V - -) (- - -)
1 (? ? ?) (- - -) (V - -) (- - -) (- - -)
2 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (V - -) (V - -)
1 (? ? ?) (- - -) (V - -) (- - -) (- - -)
2 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (V - -) (V - -)
1 (? ? ?) (- - -) (V - -) (- - -) (- - -)
2 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (- - -) (- - -) (V - -) (- - -) (V - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (V - -) (V - -)
1 (? ? ?) (- - -) (V - -) (- - -) (V - -)
2 (? ? ?) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (- - -) (- - -) (V - -) (- - -) (V - -)
2 (- - -) (- - -) (V - -) (- - -) (V - -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - -) (D - -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (V - -) (V - -)
1 (? ? ?) (- - -) (V - -) (- - -) (V - -)
2 (? ? ?) (- - -) (V - -) (- - -) (V 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STARTING>
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (V - -) (- - -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (V - -) (- - -) (- - -)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (L 1 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (V 1 -) (- - -) (- - -) (- - -)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (L - -) (- 1 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (- 1 -) (- - -) (- - -) (- - -)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (U - -) (- 1 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (- 1 -) (- - -) (- - -) (- - -)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (R - -) (- 1 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (- 1 -) (- - -) (- - -) (- - -)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (R - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (V - -) (- - -) (- - -) (- - -)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (V - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (R - -) (- 1 -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (V - -) (- 1 -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (V - -) (V - -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (R - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STARTING>
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (- 1 -) (V - -)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (- - -) (V - -) (V - -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 2 -) (V - -) (V - -) (V - -)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (L 1 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (V 1 -) (V - -) (V - -) (V - -)
<STEP 7>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (L - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (R - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (R - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- 1 -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (V - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (R - -) (- 1 -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (V - -) (- 1 -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (V - -) (V - -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (R - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (V - -) (V - -)
3 (- - 1) (- - -) (V - -) (- - -) (- - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
224
<STARTING>
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 100
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -)
1 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 99
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -)
1 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - 1) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 98
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 1 -) (L - -) (- - -)
1 (- 1 -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- 1 -) (- - 1) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 107
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - -)
1 (- 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 106
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 105
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 104
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - -)
1 (- 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 113
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (D - -) (- - 1)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 112
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - 1)
2 (D - -) (- - -)
3 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 111
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - 1)
2 (L - -) (- - -)
3 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 110
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - 1)
2 (U - -) (- - -)
3 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 107
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - 1)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 104
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 103
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 100
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - 1) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 97
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - 1) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 94
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 93
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (V - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 92
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- 1 -)
2 (- - 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- 1 -)
2 (? ? ?) (? ? ?) (- - 1) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (V - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 91
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- 1 -)
2 (- - 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- 1 -)
2 (? ? ?) (? ? ?) (- - 1) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (V - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 90
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- 1 -)
2 (- - 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- 1 -)
2 (? ? ?) (? ? ?) (- - 1) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (V - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 89
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- 1 -)
2 (- - 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- 1 -)
2 (? ? ?) (? ? ?) (- - 1) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 98
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (R - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 97
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 96
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 95
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (L - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 94
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (U - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 91
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (U - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 90
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 89
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 88
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 87
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (L - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 86
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 85
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 84
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 81
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 78
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 77
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (L - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 76
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (U - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 73
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (U - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 70
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 69
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 68
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 65
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 64
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (L - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (- - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 61
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 60
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - 1) (L - -) (- - -)
2 (- - -) (- - 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - 1) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (- - 1) (- - 1) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 47>
SELECTED ACTION: Turn
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 59
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - 1) (U - -) (- - -)
2 (- - -) (- - 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - 1) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (- - 1) (- - 1) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 56
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - 1) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 55
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - 1) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 52
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 49
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 48
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 45
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 42
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 41
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (L - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 40
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (U - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 37
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (U - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 34
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 33
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 32
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 29
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 26
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 25
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (L - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 24
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (U - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 21
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (U - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 18
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 67>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 17
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 16
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 13
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 12
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (L - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 9
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 8
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - 1) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 5
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 4
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 1
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 0
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STARTING>
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 100
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -)
1 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 99
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -)
1 (- - 1) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (V - -) (- - -)
1 (? ? ?) (- - 1) (- - -) (- - -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 98
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 1 -) (L - -) (- - -)
1 (- 1 -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 107
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - -)
1 (- 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 106
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 105
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 104
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - -)
1 (- 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 113
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (D - -) (- - 1)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 112
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (L - -) (- - 1)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 111
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - 1)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 110
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (R - -) (- - 1)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 104
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 103
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- - -)
2 (- - -) (- - 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 102
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- 1 -)
2 (- - 1) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 111
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (R - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 110
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 109
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 108
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (L - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 107
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (U - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 104
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (U - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 103
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 102
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 101
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 98
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 95
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 94
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (L - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 93
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (U - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 90
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (U - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 87
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 86
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 85
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 82
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 79
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 78
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (L - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 77
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (U - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 74
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (U - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 71
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 70
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 69
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 66
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 63
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 62
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (L - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 61
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (U - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 58
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (U - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 55
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 45>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 54
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 53
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 50
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 47
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 46
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (L - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 45
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (U - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 42
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (U - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 39
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 38
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 37
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 34
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 31
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 30
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (L - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 29
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (U - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 26
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (U - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 23
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 22
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 21
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 18
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 15
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 14
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (L - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 13
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (U - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 10
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (U - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 7
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (U - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 6
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 5
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 2
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: -1
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - 2)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STARTING>
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -) (L - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (L - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (L - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (V - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (D - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (L - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (U - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (D - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (L - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (U - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (D - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (V - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (L - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (V - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (U - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (V - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (- - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (D - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (V - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (L - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (V - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (U - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (V - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (- 1 -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (R - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (V - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (R - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (R - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 43>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 45>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 48>
SELECTED ACTION: Turn
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (R - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (R - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (R - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 80>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- - 1) (V - -) (V - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STARTING>
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -) (L - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (L - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (L - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (- 1 -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (R - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (- - 1) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (R - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (R - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (- 1 -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (R - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 45>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (L - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (U - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
Agent performance: -1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - 2)
4 (- - -) (- 1 1) (- - -) (- 1 1) (- - 2)
670
<STARTING>
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 2) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 100
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 1) (U - 2) (- - 5)
1 (- - 3) (- - 2) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 2) (- - 5) (? ? ?)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 94
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 1) (R - 1) (- - 5)
1 (- - 3) (- - 2) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (- - 5) (? ? ?)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 88
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (R - 4) (- - 4)
1 (- - 2) (- - 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 1) (V - 4) (- - 4)
1 (? ? ?) (? ? ?) (- - 2) (- - 4) (- - 2)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 3)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 82
PERCEPT
3 4
(A G T) (A G T)
0 (- - 4) (R - 3)
1 (- - 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 4) (V - 3)
1 (? ? ?) (? ? ?) (? ? ?) (- - 4) (- - 2)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 76
PERCEPT
3 4
(A G T) (A G T)
0 (- - 4) (D - 2)
1 (- - 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 4) (V - 2)
1 (? ? ?) (? ? ?) (? ? ?) (- - 4) (- - 2)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 70
PERCEPT
3 4
(A G T) (A G T)
0 (- - 4) (- - 2)
1 (- - 4) (D - 1)
2 (- 1 1) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 4) (- - 2)
1 (? ? ?) (? ? ?) (? ? ?) (- - 4) (V - 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (- - 6)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 64
PERCEPT
3 4
(A G T) (A G T)
1 (- - 4) (- - 1)
2 (- 1 1) (D - 5)
3 (- - 6) (- 1 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - 4) (- - 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - 5)
3 (? ? ?) (? ? ?) (? ? ?) (- - 6) (- 1 5)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 68
PERCEPT
3 4
(A G T) (A G T)
2 (- 1 1) (- - 5)
3 (- - 6) (D - 4)
4 (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (- - 5)
3 (? ? ?) (? ? ?) (? ? ?) (- - 6) (V - 4)
4 (? ? ?) (? ? ?) (? ? ?) (- - 4) (- - 6)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (V - 5)
Agent performance: 62
PERCEPT
3 4
(A G T) (A G T)
3 (- - 6) (- - 4)
4 (- - 4) (D - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - 6) (- - 4)
4 (? ? ?) (? ? ?) (? ? ?) (- - 4) (V - 5)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (V - 4)
Agent performance: 56
PERCEPT
3 4
(A G T) (A G T)
3 (- - 6) (- - 4)
4 (- - 4) (L - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - 6) (- - 4)
4 (? ? ?) (? ? ?) (? ? ?) (- - 4) (V - 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (V - 3) (V - 4)
Agent performance: 50
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - 6) (- - 6) (- - 4)
4 (- - 6) (L - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- - 6) (- - 6) (- - 4)
4 (? ? ?) (? ? ?) (- - 6) (V - 3) (- - 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (V - 5) (V - 3) (V - 4)
Agent performance: 44
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 3) (- - 6) (- - 6)
4 (- - 2) (L - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- - 3) (- - 6) (- - 6) (? ? ?)
4 (? ? ?) (- - 2) (V - 5) (- - 3) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 38
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 1 8) (- - 3) (- - 6)
4 (- - 8) (L - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 8) (- - 3) (- - 6) (? ? ?) (? ? ?)
4 (- - 8) (V - 1) (- - 5) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 7) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 32
PERCEPT
0 1
(A G T) (A G T)
3 (- 1 8) (- - 3)
4 (L - 7) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 8) (- - 3) (? ? ?) (? ? ?) (? ? ?)
4 (V - 7) (- - 1) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 26
PERCEPT
0 1
(A G T) (A G T)
3 (- 1 8) (- - 3)
4 (U - 6) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 8) (- - 3) (? ? ?) (? ? ?) (? ? ?)
4 (V - 6) (- - 1) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 30
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- - 3)
3 (U - 7) (- - 3)
4 (- - 6) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 3) (- - 3) (? ? ?) (? ? ?) (? ? ?)
3 (V - 7) (- - 3) (? ? ?) (? ? ?) (? ? ?)
4 (- - 6) (- - 1) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 24
PERCEPT
0 1
(A G T) (A G T)
1 (- 1 5) (- - 3)
2 (U - 2) (- - 3)
3 (- - 7) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 5) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (V - 2) (- - 3) (? ? ?) (? ? ?) (? ? ?)
3 (- - 7) (- - 3) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 28
PERCEPT
0 1
(A G T) (A G T)
0 (- 1 2) (- - 1)
1 (U - 4) (- - 3)
2 (- - 2) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (V - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (- - 2) (- - 3) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 32
PERCEPT
0 1
(A G T) (A G T)
0 (U - 1) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 26
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 25
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 24
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 23
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 22
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 21
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 20
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 19
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 18
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 17
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 16
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 15
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 14
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 13
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 12
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 11
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 10
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 9
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 8
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 7
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 6
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 5
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 4
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 3
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 43>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 2
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 1
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 45>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 0
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (? ? ?) (? ? ?) (? ? ?)
1 (- - 4) (- - 3) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STARTING>
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 2) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 100
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 1) (U - 2) (- - 5)
1 (- - 3) (- - 2) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 2) (- - 5) (? ? ?)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 94
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 1) (R - 1) (- - 5)
1 (- - 3) (- - 2) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 2) (- - 5) (? ? ?)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 88
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 1) (R - 4) (- - 4)
1 (- - 2) (- - 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 5) (- - 4)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (- - 2)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 3)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 82
PERCEPT
3 4
(A G T) (A G T)
0 (- - 4) (R - 3)
1 (- - 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 4)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (- - 2)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 76
PERCEPT
3 4
(A G T) (A G T)
0 (- - 4) (D - 2)
1 (- - 4) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 3)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (- - 2)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 70
PERCEPT
3 4
(A G T) (A G T)
0 (- - 4) (- - 2)
1 (- - 4) (D - 1)
2 (- 1 1) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 2)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (V - 2)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (- - 6)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 64
PERCEPT
3 4
(A G T) (A G T)
1 (- - 4) (- - 1)
2 (- 1 1) (D - 5)
3 (- - 6) (- 1 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 2)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (V - 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - 6)
3 (? ? ?) (? ? ?) (? ? ?) (- - 6) (- 1 5)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 68
PERCEPT
3 4
(A G T) (A G T)
2 (- 1 1) (- - 5)
3 (- - 6) (D - 4)
4 (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 2)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (V - 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - 5)
3 (? ? ?) (? ? ?) (? ? ?) (- - 6) (V 1 5)
4 (? ? ?) (? ? ?) (? ? ?) (- - 4) (- - 6)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (V - 5)
Agent performance: 62
PERCEPT
3 4
(A G T) (A G T)
3 (- - 6) (- - 4)
4 (- - 4) (D - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 2)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (V - 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - 5)
3 (? ? ?) (? ? ?) (? ? ?) (- - 6) (V - 4)
4 (? ? ?) (? ? ?) (? ? ?) (- - 4) (V - 6)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (V - 4)
Agent performance: 56
PERCEPT
3 4
(A G T) (A G T)
3 (- - 6) (- - 4)
4 (- - 4) (L - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 2)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (V - 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - 5)
3 (? ? ?) (? ? ?) (? ? ?) (- - 6) (V - 4)
4 (? ? ?) (? ? ?) (? ? ?) (- - 4) (V - 5)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (V - 3) (V - 4)
Agent performance: 50
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - 6) (- - 6) (- - 4)
4 (- - 6) (L - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 2)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (V - 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - 5)
3 (? ? ?) (? ? ?) (- - 6) (- - 6) (V - 4)
4 (? ? ?) (? ? ?) (- - 6) (V - 4) (V - 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (V - 5) (V - 3) (V - 4)
Agent performance: 44
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - 3) (- - 6) (- - 6)
4 (- - 2) (L - 5) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 2)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (V - 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - 5)
3 (? ? ?) (- - 3) (- - 6) (- - 6) (V - 4)
4 (? ? ?) (- - 2) (V - 6) (V - 3) (V - 4)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 38
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 1 8) (- - 3) (- - 6)
4 (- - 8) (L - 1) (- - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 2)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (V - 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (V - 2) (V - 5) (V - 3) (V - 4)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 7) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 32
PERCEPT
0 1
(A G T) (A G T)
3 (- 1 8) (- - 3)
4 (L - 7) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 2)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (V - 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 8) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 26
PERCEPT
0 1
(A G T) (A G T)
3 (- 1 8) (- - 3)
4 (U - 6) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 2)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (V - 1)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 7) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 30
PERCEPT
0 1
(A G T) (A G T)
2 (- - 3) (- - 3)
3 (U - 7) (- - 3)
4 (- - 6) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 2)
1 (? ? ?) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 24
PERCEPT
0 1
(A G T) (A G T)
1 (- 1 5) (- - 3)
2 (U - 2) (- - 3)
3 (- - 7) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 3) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 28
PERCEPT
0 1
(A G T) (A G T)
0 (- 1 2) (- - 1)
1 (U - 4) (- - 3)
2 (- - 2) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 32
PERCEPT
0 1
(A G T) (A G T)
0 (U - 1) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 26
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - 1)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 20
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1)
1 (- - 4) (- - 3) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 19
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1)
1 (- - 4) (- - 3) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 18
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1)
1 (- - 4) (- - 3) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 15
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - -)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 14
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 13
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 10
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1)
1 (- - 4) (- - 3) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 9
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1)
1 (- - 4) (- - 3) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 8
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1)
1 (- - 4) (- - 3) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 5
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - -)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 4
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 3
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - 4) (- - 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 0
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1)
1 (- - 4) (- - 3) (- - 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (? ? ?) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STARTING>
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 2) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (U - 2) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 2) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (R - 1) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (R - 4) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (V - 4) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 3)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (R - 3)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (V - 3)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (D - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (D - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (D - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (D - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (V - 5)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (D - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (V - 5)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (V - 4)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (L - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (V - 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (V - 3) (V - 4)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (- - 2) (- - 6) (L - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (- - 2) (- - 6) (V - 3) (- - 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (V - 5) (V - 3) (V - 4)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (- - 2) (L - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (- - 2) (V - 5) (- - 3) (- - 4)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (L - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (V - 1) (- - 5) (- - 3) (- - 4)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 7) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (L - 7) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (V - 7) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (U - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (V - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (U - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (U - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (U - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - 1) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 43>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STEP 45>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
<STARTING>
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 2) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (U - 2) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 2) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (R - 1) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (- - 5) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (R - 4) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (- - 4)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 3)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (R - 3)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 3)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (D - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 2)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (D - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 6)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (D - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- 1 5)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (D - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (- - 6)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (V - 5)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (D - 5)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (V - 5)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (V - 4)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (L - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (- - 4) (V - 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (V - 3) (V - 4)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (- - 2) (- - 6) (L - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (- - 6) (V - 3) (V - 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (V - 5) (V - 3) (V - 4)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (- - 2) (L - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (- - 2) (V - 5) (V - 3) (V - 4)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 8) (L - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (- - 8) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 7) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (L - 7) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 7) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (- - 4)
4 (U - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (- 1 8) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (U - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (- - 3) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (- - 1)
2 (U - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (- 1 5) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (- - 1) (- - 4) (- - 2)
1 (U - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 2) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - 1) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 1) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - 1) (- - 4) (- - 2)
1 (- - 4) (- - 3) (- - 2) (- - 4) (- - 1)
2 (- - 2) (- - 3) (- - 3) (- 1 1) (- - 5)
3 (- - 7) (- - 3) (- - 6) (- - 6) (- - 4)
4 (- - 6) (- - 1) (- - 5) (- - 3) (- - 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - 1) (V - 4) (V - 2)
1 (V - 4) (- - 3) (- - 2) (- - 4) (V - 1)
2 (V - 2) (- - 3) (- - 3) (- 1 1) (V - 5)
3 (V - 7) (- - 3) (- - 6) (- - 6) (V - 4)
4 (V - 6) (V - 1) (V - 5) (V - 3) (V - 4)
33
<STARTING>
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 14)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 100
PERCEPT
3 4
(A G T) (A G T)
0 (- - 22) (- - 18)
1 (- - 18) (R - 14)
2 (- 1 22) (- 1 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 14)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (- 1 15)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 94
PERCEPT
3 4
(A G T) (A G T)
0 (- - 22) (- - 18)
1 (- - 18) (D - 13)
2 (- 1 22) (- 1 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (- 1 15)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 98
PERCEPT
3 4
(A G T) (A G T)
1 (- - 18) (- - 13)
2 (- 1 22) (D - 14)
3 (- - 18) (- - 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (- - 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (V - 14)
3 (? ? ?) (? ? ?) (? ? ?) (- - 18) (- - 12)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 92
PERCEPT
3 4
(A G T) (A G T)
2 (- 1 22) (- - 14)
3 (- - 18) (D - 11)
4 (- - 20) (- - 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (- - 14)
3 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 11)
4 (? ? ?) (? ? ?) (? ? ?) (- - 20) (- - 27)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (V - 26)
Agent performance: 86
PERCEPT
3 4
(A G T) (A G T)
3 (- - 18) (- - 11)
4 (- - 20) (D - 26)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - 18) (- - 11)
4 (? ? ?) (? ? ?) (? ? ?) (- - 20) (V - 26)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (V - 25)
Agent performance: 80
PERCEPT
3 4
(A G T) (A G T)
3 (- - 18) (- - 11)
4 (- - 20) (L - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - 18) (- - 11)
4 (? ? ?) (? ? ?) (? ? ?) (- - 20) (V - 25)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (V - 19) (V - 25)
Agent performance: 74
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 1 23) (- - 18) (- - 11)
4 (- - 22) (L - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 1 23) (- - 18) (- - 11)
4 (? ? ?) (? ? ?) (- - 22) (V - 19) (- - 25)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (V - 21) (V - 19) (V - 25)
Agent performance: 68
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 2 16) (- 1 23) (- - 18)
4 (- - 16) (L - 21) (- - 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 2 16) (- 1 23) (- - 18) (? ? ?)
4 (? ? ?) (- - 16) (V - 21) (- - 19) (? ? ?)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 62
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - 21) (- 2 16) (- 1 23)
4 (- - 30) (L - 15) (- - 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 21) (- 2 16) (- 1 23) (? ? ?) (? ? ?)
4 (- - 30) (V - 15) (- - 21) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 29) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 56
PERCEPT
0 1
(A G T) (A G T)
3 (- - 21) (- 2 16)
4 (L - 29) (- - 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 21) (- 2 16) (? ? ?) (? ? ?) (? ? ?)
4 (V - 29) (- - 15) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 50
PERCEPT
0 1
(A G T) (A G T)
3 (- - 21) (- 2 16)
4 (U - 28) (- - 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 21) (- 2 16) (? ? ?) (? ? ?) (? ? ?)
4 (V - 28) (- - 15) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 44
PERCEPT
0 1
(A G T) (A G T)
2 (- - 15) (- - 21)
3 (U - 20) (- 2 16)
4 (- - 28) (- - 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - 15) (- - 21) (? ? ?) (? ? ?) (? ? ?)
3 (V - 20) (- 2 16) (? ? ?) (? ? ?) (? ? ?)
4 (- - 28) (- - 15) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 38
PERCEPT
0 1
(A G T) (A G T)
1 (- - 22) (- - 21)
2 (U - 14) (- - 21)
3 (- - 20) (- 2 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - 22) (- - 21) (? ? ?) (? ? ?) (? ? ?)
2 (V - 14) (- - 21) (? ? ?) (? ? ?) (? ? ?)
3 (- - 20) (- 2 16) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 32
PERCEPT
0 1
(A G T) (A G T)
0 (- - 17) (- - 14)
1 (U - 21) (- - 21)
2 (- - 14) (- - 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (? ? ?) (? ? ?) (? ? ?)
1 (V - 21) (- - 21) (? ? ?) (? ? ?) (? ? ?)
2 (- - 14) (- - 21) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 16) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 26
PERCEPT
0 1
(A G T) (A G T)
0 (U - 16) (- - 14)
1 (- - 21) (- - 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 16) (- - 14) (? ? ?) (? ? ?) (? ? ?)
1 (- - 21) (- - 21) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 20
PERCEPT
0 1
(A G T) (A G T)
0 (R - 15) (- - 14)
1 (- - 21) (- - 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (- - 14) (? ? ?) (? ? ?) (? ? ?)
1 (- - 21) (- - 21) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 14
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 15) (R - 13) (- - 20)
1 (- - 21) (- - 21) (- - 29)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (V - 13) (- - 20) (? ? ?) (? ? ?)
1 (- - 21) (- - 21) (- - 29) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 8
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 13) (R - 19) (- - 22)
1 (- - 21) (- - 29) (- - 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - 13) (V - 19) (- - 22) (? ? ?)
1 (? ? ?) (- - 21) (- - 29) (- - 18) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (V - 21) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 2
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 19) (R - 21) (- - 18)
1 (- - 29) (- - 18) (- - 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - 19) (V - 21) (- - 18)
1 (? ? ?) (? ? ?) (- - 29) (- - 18) (- - 13)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (V - 21) (V - 17)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: -4
PERCEPT
3 4
(A G T) (A G T)
0 (- - 21) (R - 17)
1 (- - 18) (- - 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 21) (V - 17)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (- - 13)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STARTING>
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 14)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 100
PERCEPT
3 4
(A G T) (A G T)
0 (- - 22) (- - 18)
1 (- - 18) (R - 14)
2 (- 1 22) (- 1 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 14)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (- 1 15)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 94
PERCEPT
3 4
(A G T) (A G T)
0 (- - 22) (- - 18)
1 (- - 18) (D - 13)
2 (- 1 22) (- 1 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 14)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (- 1 15)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 98
PERCEPT
3 4
(A G T) (A G T)
1 (- - 18) (- - 13)
2 (- 1 22) (D - 14)
3 (- - 18) (- - 12)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (V 1 15)
3 (? ? ?) (? ? ?) (? ? ?) (- - 18) (- - 12)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 92
PERCEPT
3 4
(A G T) (A G T)
2 (- 1 22) (- - 14)
3 (- - 18) (D - 11)
4 (- - 20) (- - 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (V - 14)
3 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 12)
4 (? ? ?) (? ? ?) (? ? ?) (- - 20) (- - 27)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (V - 26)
Agent performance: 86
PERCEPT
3 4
(A G T) (A G T)
3 (- - 18) (- - 11)
4 (- - 20) (D - 26)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (V - 14)
3 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 11)
4 (? ? ?) (? ? ?) (? ? ?) (- - 20) (V - 27)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (V - 25)
Agent performance: 80
PERCEPT
3 4
(A G T) (A G T)
3 (- - 18) (- - 11)
4 (- - 20) (L - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (V - 14)
3 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 11)
4 (? ? ?) (? ? ?) (? ? ?) (- - 20) (V - 26)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (V - 19) (V - 25)
Agent performance: 74
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 1 23) (- - 18) (- - 11)
4 (- - 22) (L - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (V - 14)
3 (? ? ?) (? ? ?) (- 1 23) (- - 18) (V - 11)
4 (? ? ?) (? ? ?) (- - 22) (V - 20) (V - 25)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (V - 21) (V - 19) (V - 25)
Agent performance: 68
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 2 16) (- 1 23) (- - 18)
4 (- - 16) (L - 21) (- - 19)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (V - 14)
3 (? ? ?) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (? ? ?) (- - 16) (V - 22) (V - 19) (V - 25)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 62
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - 21) (- 2 16) (- 1 23)
4 (- - 30) (L - 15) (- - 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (V - 16) (V - 21) (V - 19) (V - 25)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 29) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 56
PERCEPT
0 1
(A G T) (A G T)
3 (- - 21) (- 2 16)
4 (L - 29) (- - 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 30) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 50
PERCEPT
0 1
(A G T) (A G T)
3 (- - 21) (- 2 16)
4 (U - 28) (- - 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 13)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 29) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 44
PERCEPT
0 1
(A G T) (A G T)
2 (- - 15) (- - 21)
3 (U - 20) (- 2 16)
4 (- - 28) (- - 15)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (? ? ?) (? ? ?) (? ? ?) (- - 18) (V - 13)
2 (- - 15) (- - 21) (? ? ?) (- 1 22) (V - 14)
3 (V - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 38
PERCEPT
0 1
(A G T) (A G T)
1 (- - 22) (- - 21)
2 (U - 14) (- - 21)
3 (- - 20) (- 2 16)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - 22) (- - 18)
1 (- - 22) (- - 21) (? ? ?) (- - 18) (V - 13)
2 (V - 15) (- - 21) (? ? ?) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 32
PERCEPT
0 1
(A G T) (A G T)
0 (- - 17) (- - 14)
1 (U - 21) (- - 21)
2 (- - 14) (- - 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (? ? ?) (- - 22) (- - 18)
1 (V - 22) (- - 21) (? ? ?) (- - 18) (V - 13)
2 (V - 14) (- - 21) (? ? ?) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 16) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 26
PERCEPT
0 1
(A G T) (A G T)
0 (U - 16) (- - 14)
1 (- - 21) (- - 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 17) (- - 14) (? ? ?) (- - 22) (- - 18)
1 (V - 21) (- - 21) (? ? ?) (- - 18) (V - 13)
2 (V - 14) (- - 21) (? ? ?) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 20
PERCEPT
0 1
(A G T) (A G T)
0 (R - 15) (- - 14)
1 (- - 21) (- - 21)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 16) (- - 14) (? ? ?) (- - 22) (- - 18)
1 (V - 21) (- - 21) (? ? ?) (- - 18) (V - 13)
2 (V - 14) (- - 21) (? ? ?) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 14
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - 15) (R - 13) (- - 20)
1 (- - 21) (- - 21) (- - 29)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (? ? ?) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 8
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - 13) (R - 19) (- - 22)
1 (- - 21) (- - 29) (- - 18)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (? ? ?) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (V - 21) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 2
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - 19) (R - 21) (- - 18)
1 (- - 29) (- - 18) (- - 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (V - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (? ? ?) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (V - 21) (V - 17)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: -4
PERCEPT
3 4
(A G T) (A G T)
0 (- - 21) (R - 17)
1 (- - 18) (- - 13)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (V - 21) (V - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (? ? ?) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STARTING>
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 14)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (R - 14)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 14)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (D - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (D - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (D - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (V - 26)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (D - 26)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (V - 26)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (V - 25)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (L - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (V - 25)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (V - 19) (V - 25)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (- - 16) (- - 22) (L - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (- - 16) (- - 22) (V - 19) (- - 25)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (V - 21) (V - 19) (V - 25)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (- - 16) (L - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (- - 16) (V - 21) (- - 19) (- - 25)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (L - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (V - 15) (- - 21) (- - 19) (- - 25)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 29) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (L - 29) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (V - 29) (- - 15) (- - 21) (- - 19) (- - 25)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (U - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (V - 28) (- - 15) (- - 21) (- - 19) (- - 25)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (U - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (U - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (U - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 16) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - 16) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 16) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - 15) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (R - 13) (- - 20) (- - 22) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (V - 13) (- - 20) (- - 22) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (- - 13) (R - 19) (- - 22) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (- - 13) (V - 19) (- - 22) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (V - 21) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (- - 13) (- - 19) (R - 21) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (- - 13) (- - 19) (V - 21) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (V - 21) (V - 17)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: -4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (- - 13) (- - 19) (- - 21) (R - 17)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (- - 13) (- - 19) (- - 21) (V - 17)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
<STARTING>
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 14)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (R - 14)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 14)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (D - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- 1 15)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (D - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 12)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (D - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (- - 27)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (V - 26)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (D - 26)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (V - 26)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (V - 25)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (L - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (- - 20) (V - 25)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (V - 19) (V - 25)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (- - 16) (- - 22) (L - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (- - 22) (V - 19) (V - 25)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (V - 21) (V - 19) (V - 25)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (- - 16) (L - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (- - 16) (V - 21) (V - 19) (V - 25)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 30) (L - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (- - 30) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 29) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (L - 29) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 29) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (U - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (- - 21) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (U - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (- - 15) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (- - 13)
2 (U - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 22) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (U - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 17) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 16) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - 16) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 16) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - 15) (- - 14) (- - 20) (- - 22) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (- - 14) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (R - 13) (- - 20) (- - 22) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (- - 20) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (- - 13) (R - 19) (- - 22) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (- - 22) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (V - 21) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (- - 13) (- - 19) (R - 21) (- - 18)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (V - 21) (- - 18)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (V - 21) (V - 17)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
Agent performance: -4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - 15) (- - 13) (- - 19) (- - 21) (R - 17)
1 (- - 21) (- - 21) (- - 29) (- - 18) (- - 13)
2 (- - 14) (- - 21) (- - 27) (- 1 22) (- - 14)
3 (- - 20) (- 2 16) (- 1 23) (- - 18) (- - 11)
4 (- - 28) (- - 15) (- - 21) (- - 19) (- - 25)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - 15) (V - 13) (V - 19) (V - 21) (V - 17)
1 (V - 21) (- - 21) (- - 29) (- - 18) (V - 13)
2 (V - 14) (- - 21) (- - 27) (- 1 22) (V - 14)
3 (V - 20) (- 2 16) (- 1 23) (- - 18) (V - 11)
4 (V - 28) (V - 15) (V - 21) (V - 19) (V - 25)
fig, ax = plt.subplots(2,2)
plot_pro_arrays(array5_1, ax[0,0], '1 traps, 5 gold', '.', [9,7,5,2])
plot_pro_arrays(array5_10, ax[0,1], '10 traps, 5 gold', '.', [5,2,2,2])
plot_pro_arrays(array5_100, ax[1,0], '100 traps, 5 gold', '.', [9,7,5,2])
plot_pro_arrays(array5_500, ax[1,1], '500 traps, 5 gold', '.', [13,7,5,2])
fig.set_size_inches(18.5, 10.5)
fig.savefig('vary_traps.jpg', dpi=200)
array1_5 = run_experiment(1, 5)
array10_5 = run_experiment(10, 5)
array100_5 = run_experiment(100, 5)
array500_5= run_experiment(500, 5)
355
<STARTING>
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 100
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 1 -)
1 (R - -) (- - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 99
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (R - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 98
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 97
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 96
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 105
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STARTING>
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 100
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 1 -)
1 (R - -) (- - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 99
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (R - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
1 (V - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 98
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
1 (V - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 97
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
1 (V - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 96
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
1 (V - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 105
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 1 -) (- - -) (? ? ?) (? ? ?)
1 (V - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STARTING>
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (R - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (- - -) (R - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (- - -) (D - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (- - -) (L - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (- - -) (U - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - 1) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - 1) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
<STARTING>
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (R - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (- - -) (R - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (- - -) (D - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (- - -) (L - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (- - -) (U - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - 1) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - 1) (- - -)
1 (V - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - -) (- - -)
3 (- - -) (- - 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - 1) (- - -)
436
<STARTING>
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 100
PERCEPT
0 1
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (D - -) (- - -)
3 (- - 1) (- 1 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 99
PERCEPT
0 1
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (L - -) (- - -)
3 (- - 1) (- 1 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 98
PERCEPT
0 1
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (U - -) (- - -)
3 (- - 1) (- 1 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 107
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 106
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 105
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 104
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -)
1 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- 1 -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 113
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- 1 -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 112
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- 1 -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (- - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 121
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- - 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (- - 1) (- - 1) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (- - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 120
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - -) (- - 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (- - 1) (- - 1) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 119
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 116
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (L - -) (- - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 115
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 112
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 111
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 108
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 105
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 104
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 103
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 100
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 97
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 96
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 95
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 94
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 93
PERCEPT
0 1
(A G T) (A G T)
0 (L - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 92
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 91
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 88
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 85
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 84
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 81
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- - 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (- - 1) (- - 1) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 80
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - -) (- - 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (- - 1) (- - 1) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 79
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - -) (- - 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (- - 1) (- - 1) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 76
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 75
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 74
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 73
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 72
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 71
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (L - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 68
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 67
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 66
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 63
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 62
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 61
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- - -) (D - -)
2 (- - 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 60
PERCEPT
3 4
(A G T) (A G T)
1 (- - -) (- - -)
2 (- - 1) (D - -)
3 (- - -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- 2 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V 1 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 69
PERCEPT
3 4
(A G T) (A G T)
2 (- - 1) (- - -)
3 (- - -) (D 1 -)
4 (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (V 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- 3 1)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V 1 -)
4 (- - -) (- 1 -) (- - -) (- - -) (V 2 -)
Agent performance: 73
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- 1 -)
4 (- - -) (D 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V 2 -)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V 1 -)
4 (- - -) (- 1 -) (- - -) (- - -) (V 1 -)
Agent performance: 82
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- 1 -)
4 (- - -) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V 1 -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V 1 -)
4 (- - -) (- 1 -) (- - -) (V - -) (V 1 -)
Agent performance: 81
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- 1 -)
4 (- - -) (L - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- - -) (- - -) (- 1 -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- 1 -)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V 1 -)
4 (- - -) (- 1 -) (- - -) (V - -) (V 1 -)
Agent performance: 80
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- 1 -)
4 (- - -) (U - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- - -) (- - -) (- 1 -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- 1 -)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V 1 -)
4 (- - -) (- 1 -) (- - -) (V - -) (V 1 -)
Agent performance: 79
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- 1 -)
4 (- - -) (R - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- - -) (- - -) (- 1 -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- 1 -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V 1 -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- 1 -)
4 (- - -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V 1 -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- 1 -)
4 (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V 1 -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- 1 -)
4 (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V 1 -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- 1 -)
4 (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
3 4
(A G T) (A G T)
2 (- - 1) (- - -)
3 (- - -) (U - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
3 4
(A G T) (A G T)
2 (- - 1) (- - -)
3 (- - -) (R - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
3 4
(A G T) (A G T)
2 (- - 1) (- - -)
3 (- - -) (D - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
3 4
(A G T) (A G T)
2 (- - 1) (- - -)
3 (- - -) (L - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (V - -) (V - -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - 1) (- - 1) (- - -)
3 (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - 1) (- - 1) (- - -)
3 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (V - -) (V - -) (V - -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - 1) (- - 1)
3 (- 1 1) (L - -) (- - -)
4 (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - 1) (- - 1) (? ? ?)
3 (? ? ?) (- 1 1) (V - -) (- - -) (? ? ?)
4 (? ? ?) (- 1 -) (- - -) (- - -) (? ? ?)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (V - -) (V - -) (V - -) (V - -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - 1)
3 (- - 1) (L - -) (- - -)
4 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (- - 1) (V - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (V - -) (V - -) (V - -) (V - -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - 1)
3 (- - 1) (U - -) (- - -)
4 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (- - 1) (V - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (V - -) (V - -) (V - -) (V - -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - 1)
3 (- - 1) (R - -) (- - -)
4 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (- - 1) (V - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (V - -) (V - -) (V - -) (V - -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - 1)
3 (- - 1) (D - -) (- - -)
4 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - 1) (? ? ?) (? ? ?)
3 (- - 1) (V - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (V - -) (V - -) (V - -) (V - -)
4 (- - -) (V - -) (- - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STARTING>
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 100
PERCEPT
0 1
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (D - -) (- - -)
3 (- - 1) (- 1 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 99
PERCEPT
0 1
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (L - -) (- - -)
3 (- - 1) (- 1 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 98
PERCEPT
0 1
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (U - -) (- - -)
3 (- - 1) (- 1 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 107
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V 1 -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 106
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 105
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 104
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -)
1 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- 1 -) (? ? ?) (? ? ?)
1 (V - -) (- - -) (- 1 -) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 113
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (- - -) (? ? ?)
1 (V - -) (- - -) (- 1 -) (- - -) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 112
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (- - -) (- 1 -) (- - -) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (- - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 121
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- - 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (- - -) (V 1 -) (- - -) (? ? ?)
2 (V - -) (- - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (- - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 120
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - -) (- - 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (- - -) (V - -) (- - -) (? ? ?)
2 (V - -) (- - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 119
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (- - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 116
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (L - -) (- - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (- - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 115
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (- - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 112
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (- - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 111
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (- - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 108
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (- - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 107
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (- - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 104
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (- - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (- 1 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 103
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (D - -) (- - 1)
3 (- - 1) (- 1 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (- 1 1) (- - -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 107
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - 1)
3 (- - 1) (D - -) (- - -)
4 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V 1 1) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (1, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (- - -) (- - -) (- 3 1)
Agent performance: 116
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (V 1 -) (- - -) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (- - -) (- - -) (- 3 1)
Agent performance: 115
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (- - -) (- - -) (- 3 1)
Agent performance: 114
PERCEPT
0 1
(A G T) (A G T)
3 (- - 1) (- - -)
4 (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V - -) (- - -) (? ? ?) (? ? ?)
4 (V - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (- - -) (- - -) (- 3 1)
Agent performance: 113
PERCEPT
0 1
(A G T) (A G T)
3 (- - 1) (- - -)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V - -) (- - -) (? ? ?) (? ? ?)
4 (V - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (- - -) (- - -) (- 3 1)
Agent performance: 112
PERCEPT
0 1
(A G T) (A G T)
3 (- - 1) (- - -)
4 (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V - -) (- - -) (? ? ?) (? ? ?)
4 (V - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (- - -) (- - -) (- 3 1)
Agent performance: 109
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - 1) (- - -) (- - -)
4 (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V - -) (- - -) (? ? ?) (? ? ?)
4 (V - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (V - -) (- - -) (- 3 1)
Agent performance: 108
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V - -) (- - -) (- - -) (? ? ?)
4 (V - -) (V - -) (V - -) (- - -) (? ? ?)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (V - -) (V - -) (- 3 1)
Agent performance: 107
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- 2 -)
4 (- - -) (R - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (V - -) (V - -) (- 3 1)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V 2 -)
Agent performance: 111
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- 2 -)
4 (- - -) (R 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V 3 1)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V 1 -)
Agent performance: 120
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- 2 -)
4 (- - -) (D 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V 2 -)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- 2 -)
4 (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V 1 -)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- 2 -)
4 (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (? ? ?)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
3 4
(A G T) (A G T)
2 (- - 1) (- - -)
3 (- - -) (U 1 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
3 4
(A G T) (A G T)
2 (- - 1) (- - -)
3 (- - -) (U - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (? ? ?)
1 (V - -) (V - -) (V - -) (- - -) (? ? ?)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STARTING>
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (D - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (L - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (U - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (U - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (R - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (R - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (V - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (- - -) (R - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (- - -) (D - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (- - -) (L - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (- - -) (U - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (D - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (L - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (L - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (D - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (D - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (L - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (U - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (D - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (D - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (L - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (U - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (V - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (D - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (D - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (1, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (- - -) (- - -) (- 3 1)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (D - -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (- - -) (- - -) (- 3 1)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (- - -) (- - -) (- 3 1)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (L - -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (- - -) (- - -) (- 3 1)
<STEP 43>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (- - -) (- - -) (- 3 1)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (U - -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (- - -) (- - -) (- 3 1)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (- - -) (- - -) (- 3 1)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (R - -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (- - -) (- - -) (- 3 1)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (V - -) (- - -) (- 3 1)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- - -) (R - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- - -) (V - -) (- - -) (- 3 1)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (V - -) (V - -) (- 3 1)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- - -) (- - -) (R - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- 3 1)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (V - -) (V - -) (V 2 -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (R 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (V 2 -)
<STEP 48>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (V - -) (V - -) (V 1 -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (D 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (V 1 -)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (- 2 -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (V - -) (- - -) (- - -) (V 1 -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (U 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (V 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (V - -) (- - -) (- - -) (V 1 -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (U - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (V - -) (- - -) (- - -) (V 1 -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (R - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (V - -) (- - -) (- - -) (V 1 -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- - -) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (V - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (V - -) (- - -) (- - -) (V - -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STARTING>
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (D - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (L - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (U - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 1 -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (U - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (R - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (R - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (- - -) (R - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (- - -) (D - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (- - -) (L - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- - -) (- - -) (U - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 1 -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (- - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (- - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (D - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (D - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- 2 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V 1 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (D 1 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V 1 -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (D - -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (- - -) (- 3 1)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (- - -) (V 2 -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- - -)
4 (- - -) (- 1 -) (- - -) (- - -) (D 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (- - -) (V 2 -)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (- - -) (V 1 -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- - -)
4 (- - -) (- 1 -) (- - -) (- - -) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (- - -) (V 1 -)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (- - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- - -)
4 (- - -) (- 1 -) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (- - -) (V - -)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- - -)
4 (- - -) (- 1 -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (- - -) (V - -) (V - -)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- - -)
4 (- - -) (- 1 -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (- 1 -) (V - -) (V - -) (V - -)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- - -)
4 (- - -) (L - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (- - -)
4 (- - -) (U - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (- 1 1) (- - -) (- - -) (V - -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (V - -) (- - -) (- - -) (V - -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - 1) (- - 1) (- - -)
3 (- - 1) (U - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (- - -) (V - -)
2 (V - -) (- - -) (- - 1) (- - 1) (V - -)
3 (- - 1) (V - -) (- - -) (- - -) (V - -)
4 (- - -) (V - -) (V - -) (V - -) (V - -)
273
<STARTING>
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 100
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 3 -) (- 5 -) (- 5 -)
3 (- 4 -) (L 2 1) (- 2 -)
4 (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- 3 -) (- 5 -) (- 5 -)
3 (? ? ?) (? ? ?) (- 4 -) (V 2 1) (- 2 -)
4 (? ? ?) (? ? ?) (- 4 1) (- 4 1) (- 3 -)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 109
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 4 -) (- 3 -) (- 5 -)
3 (- 7 -) (L 3 -) (- 2 1)
4 (- 7 -) (- 4 1) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 4 -) (- 3 -) (- 5 -) (? ? ?)
3 (? ? ?) (- 7 -) (V 3 -) (- 2 1) (? ? ?)
4 (? ? ?) (- 7 -) (- 4 1) (- 4 1) (? ? ?)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 118
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 2 -) (- 4 -) (- 3 -)
3 (- 7 -) (L 6 -) (- 3 -)
4 (- 3 -) (- 7 -) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (? ? ?) (? ? ?)
3 (- 7 -) (V 6 -) (- 3 -) (? ? ?) (? ? ?)
4 (- 3 -) (- 7 -) (- 4 1) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 6 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 127
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 -) (- 4 -)
3 (L 6 -) (- 6 -)
4 (- 3 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 6 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (- 3 -) (- 7 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 136
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 -) (- 4 -)
3 (U 5 -) (- 6 -)
4 (- 3 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (- 3 -) (- 7 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 145
PERCEPT
0 1
(A G T) (A G T)
1 (- 2 1) (- 3 -)
2 (U 1 -) (- 4 -)
3 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 2 1) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 1 -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 149
PERCEPT
0 1
(A G T) (A G T)
0 (- 2 -) (- 6 -)
1 (U 1 -) (- 3 -)
2 (- 1 -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 1 -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 1 -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 158
PERCEPT
0 1
(A G T) (A G T)
0 (U 1 -) (- 6 -)
1 (- 1 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 167
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 6 -)
1 (- 1 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (- 2 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 176
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 5 -) (- 2 -)
1 (- 1 -) (- 3 -) (- 7 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 5 -) (- 2 -) (? ? ?) (? ? ?)
1 (- 1 -) (- 3 -) (- 7 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 185
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 5 -) (R 1 -) (- 4 -)
1 (- 3 -) (- 7 1) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 5 -) (V 1 -) (- 4 -) (? ? ?)
1 (? ? ?) (- 3 -) (- 7 1) (- 5 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 194
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 1 -) (R 3 -) (- 2 -)
1 (- 7 1) (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 1 -) (V 3 -) (- 2 -)
1 (? ? ?) (? ? ?) (- 7 1) (- 5 -) (- 5 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V 1 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 203
PERCEPT
3 4
(A G T) (A G T)
0 (- 3 -) (R 1 -)
1 (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 3 -) (V 1 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (- 5 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 212
PERCEPT
3 4
(A G T) (A G T)
0 (- 3 -) (D - -)
1 (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 3 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (- 5 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 221
PERCEPT
3 4
(A G T) (A G T)
0 (- 3 -) (- - -)
1 (- 5 -) (D 4 -)
2 (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 3 -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (V 4 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (- 5 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 230
PERCEPT
3 4
(A G T) (A G T)
1 (- 5 -) (- 4 -)
2 (- 5 -) (D 4 -)
3 (- 2 1) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (- 4 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (V 4 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (- 2 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 239
PERCEPT
3 4
(A G T) (A G T)
2 (- 5 -) (- 4 -)
3 (- 2 1) (D 1 -)
4 (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (- 4 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (V 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 1) (- 3 -)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 2 -)
Agent performance: 248
PERCEPT
3 4
(A G T) (A G T)
3 (- 2 1) (- 1 -)
4 (- 4 1) (D 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 1) (V 2 -)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 1 -)
Agent performance: 257
PERCEPT
3 4
(A G T) (A G T)
3 (- 2 1) (- 1 -)
4 (- 4 1) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 4 1) (V 1 -)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (V 3 -) (V 1 -)
Agent performance: 261
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 3 -) (- 2 1) (- 1 -)
4 (- 4 1) (L 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 3 -) (- 2 1) (- 1 -)
4 (? ? ?) (? ? ?) (- 4 1) (V 3 -) (- 1 -)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (- 3 -) (- 7 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 265
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 6 -) (- 3 -) (- 2 1)
4 (- 7 -) (L 3 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 6 -) (- 3 -) (- 2 1) (? ? ?)
4 (? ? ?) (- 7 -) (V 3 -) (- 3 -) (? ? ?)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (- 3 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 274
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 5 -) (- 6 -) (- 3 -)
4 (- 3 -) (L 6 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 -) (- 6 -) (- 3 -) (? ? ?) (? ? ?)
4 (- 3 -) (V 6 -) (- 3 -) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 2 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 283
PERCEPT
0 1
(A G T) (A G T)
3 (- 5 -) (- 6 -)
4 (L 2 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (V 2 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 292
PERCEPT
0 1
(A G T) (A G T)
3 (- 5 -) (- 6 -)
4 (U 1 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (V 1 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 299
PERCEPT
0 1
(A G T) (A G T)
2 (- 1 -) (- 4 -)
3 (U 4 -) (- 6 -)
4 (- 1 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 1 -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 4 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (- 1 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 306
PERCEPT
0 1
(A G T) (A G T)
1 (- 1 -) (- 3 -)
2 (U - -) (- 4 -)
3 (- 4 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 313
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 5 -)
1 (U - -) (- 3 -)
2 (- - -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 312
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 5 -)
1 (R - -) (- 3 -)
2 (- - -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (- 7 1) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 321
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -)
1 (- - -) (R 2 -) (- 7 1)
2 (- - -) (- 4 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (? ? ?) (? ? ?)
1 (- - -) (V 2 -) (- 7 1) (? ? ?) (? ? ?)
2 (- - -) (- 4 -) (- 3 -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 325
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 5 -) (- 1 -) (- 3 -)
1 (- 2 -) (R 6 -) (- 5 -)
2 (- 4 -) (- 3 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 5 -) (- 1 -) (- 3 -) (? ? ?)
1 (? ? ?) (- 2 -) (V 6 -) (- 5 -) (? ? ?)
2 (? ? ?) (- 4 -) (- 3 -) (- 5 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 334
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 1 -) (- 3 -) (- - -)
1 (- 6 -) (R 4 -) (- 4 -)
2 (- 3 -) (- 5 -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 1 -) (- 3 -) (- - -)
1 (? ? ?) (? ? ?) (- 6 -) (V 4 -) (- 4 -)
2 (? ? ?) (? ? ?) (- 3 -) (- 5 -) (- 4 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 3 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 341
PERCEPT
3 4
(A G T) (A G T)
0 (- 3 -) (- - -)
1 (- 4 -) (R 3 -)
2 (- 5 -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 3 -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V 3 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (- 4 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 350
PERCEPT
3 4
(A G T) (A G T)
0 (- 3 -) (- - -)
1 (- 4 -) (D 2 -)
2 (- 5 -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 3 -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (- 4 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 357
PERCEPT
3 4
(A G T) (A G T)
1 (- 4 -) (- 2 -)
2 (- 5 -) (D 3 -)
3 (- 2 1) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (V 3 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 364
PERCEPT
3 4
(A G T) (A G T)
2 (- 5 -) (- 3 -)
3 (- 2 1) (D - -)
4 (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (- 3 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 3 -) (- 1 -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V - -)
Agent performance: 371
PERCEPT
3 4
(A G T) (A G T)
3 (- 2 1) (- - -)
4 (- 3 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 3 -) (V - -)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V - -)
Agent performance: 370
PERCEPT
3 4
(A G T) (A G T)
3 (- 2 1) (- - -)
4 (- 3 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 3 -) (V - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V 1 -) (V 6 -) (V 3 -) (V 2 -) (V - -)
Agent performance: 377
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 3 -) (- 2 1) (- - -)
4 (- 3 -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 3 -) (- 2 1) (- - -)
4 (? ? ?) (? ? ?) (- 3 -) (V 2 -) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V 1 -) (V 6 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 384
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 6 -) (- 3 -) (- 2 1)
4 (- 6 -) (L 2 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 6 -) (- 3 -) (- 2 1) (? ? ?)
4 (? ? ?) (- 6 -) (V 2 -) (- 2 -) (? ? ?)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V 1 -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 391
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 4 -) (- 6 -) (- 3 -)
4 (- 1 -) (L 5 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 -) (- 6 -) (- 3 -) (? ? ?) (? ? ?)
4 (- 1 -) (V 5 -) (- 2 -) (? ? ?) (? ? ?)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 398
PERCEPT
0 1
(A G T) (A G T)
3 (- 4 -) (- 6 -)
4 (L - -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 397
PERCEPT
0 1
(A G T) (A G T)
3 (- 4 -) (- 6 -)
4 (U - -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 404
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- 4 -)
3 (U 3 -) (- 6 -)
4 (- - -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 3 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 401
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- 2 -)
2 (U - -) (- 4 -)
3 (- 3 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 400
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- 2 -)
2 (R - -) (- 4 -)
3 (- 3 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 409
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- 2 -) (- 6 -)
2 (- - -) (R 3 -) (- 3 -)
3 (- 3 -) (- 6 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (- 6 -) (? ? ?) (? ? ?)
2 (- - -) (V 3 -) (- 3 -) (? ? ?) (? ? ?)
3 (- 3 -) (- 6 -) (- 3 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (- 5 -) (V 3 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 418
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 2 -) (- 6 -) (- 4 -)
2 (- 3 -) (R 2 -) (- 5 -)
3 (- 6 -) (- 3 -) (- 2 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 2 -) (- 6 -) (- 4 -) (? ? ?)
2 (? ? ?) (- 3 -) (V 2 -) (- 5 -) (? ? ?)
3 (? ? ?) (- 6 -) (- 3 -) (- 2 1) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 3 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 427
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 6 -) (- 4 -) (- 2 -)
2 (- 2 -) (R 4 -) (- 3 -)
3 (- 3 -) (- 2 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 6 -) (- 4 -) (- 2 -)
2 (? ? ?) (? ? ?) (- 2 -) (V 4 -) (- 3 -)
3 (? ? ?) (? ? ?) (- 3 -) (- 2 1) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 2 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 434
PERCEPT
3 4
(A G T) (A G T)
1 (- 4 -) (- 2 -)
2 (- 4 -) (R 2 -)
3 (- 2 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V 2 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 443
PERCEPT
3 4
(A G T) (A G T)
1 (- 4 -) (- 2 -)
2 (- 4 -) (D 1 -)
3 (- 2 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V 1 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 440
PERCEPT
3 4
(A G T) (A G T)
2 (- 4 -) (- 1 -)
3 (- 2 1) (D - -)
4 (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 1 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (- - -)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 439
PERCEPT
3 4
(A G T) (A G T)
2 (- 4 -) (- 1 -)
3 (- 2 1) (L - -)
4 (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 1 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 2 1) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 441
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 2 -) (- 4 -) (- 1 -)
3 (- 3 -) (L 1 -) (- - -)
4 (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- 2 -) (- 4 -) (- 1 -)
3 (? ? ?) (? ? ?) (- 3 -) (V 1 -) (- - -)
4 (? ? ?) (? ? ?) (- 2 -) (- 2 -) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 3 -) (V 6 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 448
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 3 -) (- 2 -) (- 4 -)
3 (- 6 -) (L 2 -) (- 1 -)
4 (- 5 -) (- 2 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 3 -) (- 2 -) (- 4 -) (? ? ?)
3 (? ? ?) (- 6 -) (V 2 -) (- 1 -) (? ? ?)
4 (? ? ?) (- 5 -) (- 2 -) (- 2 -) (? ? ?)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 3 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 455
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- 3 -) (- 2 -)
3 (- 3 -) (L 5 -) (- 2 -)
4 (- - -) (- 5 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- 3 -) (- 2 -) (? ? ?) (? ? ?)
3 (- 3 -) (V 5 -) (- 2 -) (? ? ?) (? ? ?)
4 (- - -) (- 5 -) (- 2 -) (? ? ?) (? ? ?)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 2 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 462
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- 3 -)
3 (L 2 -) (- 5 -)
4 (- - -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 2 -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 471
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- 3 -)
3 (U 1 -) (- 5 -)
4 (- - -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 1 -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 468
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- 2 -)
2 (U - -) (- 3 -)
3 (- 1 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 467
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- 2 -)
2 (R - -) (- 3 -)
3 (- 1 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 474
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- 2 -) (- 6 -)
2 (- - -) (R 2 -) (- 2 -)
3 (- 1 -) (- 5 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (- 6 -) (? ? ?) (? ? ?)
2 (- - -) (V 2 -) (- 2 -) (? ? ?) (? ? ?)
3 (- 1 -) (- 5 -) (- 2 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 1 -) (V 4 -) (V 1 -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 481
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 2 -) (- 6 -) (- 4 -)
2 (- 2 -) (R 1 -) (- 4 -)
3 (- 5 -) (- 2 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 2 -) (- 6 -) (- 4 -) (? ? ?)
2 (? ? ?) (- 2 -) (V 1 -) (- 4 -) (? ? ?)
3 (? ? ?) (- 5 -) (- 2 -) (- 1 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 1 -) (V 3 -) (V 1 -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 488
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 6 -) (- 4 -) (- 2 -)
2 (- 1 -) (R 3 -) (- 1 -)
3 (- 2 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 6 -) (- 4 -) (- 2 -)
2 (? ? ?) (? ? ?) (- 1 -) (V 3 -) (- 1 -)
3 (? ? ?) (? ? ?) (- 2 -) (- 1 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 1 -) (V 3 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 495
PERCEPT
3 4
(A G T) (A G T)
1 (- 4 -) (- 2 -)
2 (- 3 -) (R - -)
3 (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 3 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 1 -) (V 3 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 494
PERCEPT
3 4
(A G T) (A G T)
1 (- 4 -) (- 2 -)
2 (- 3 -) (D - -)
3 (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 3 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 1 -) (V 3 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 493
PERCEPT
3 4
(A G T) (A G T)
1 (- 4 -) (- 2 -)
2 (- 3 -) (L - -)
3 (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 3 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 1 -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 500
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 6 -) (- 4 -) (- 2 -)
2 (- 1 -) (L 2 -) (- - -)
3 (- 2 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 6 -) (- 4 -) (- 2 -)
2 (? ? ?) (? ? ?) (- 1 -) (V 2 -) (- - -)
3 (? ? ?) (? ? ?) (- 2 -) (- 1 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 507
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 2 -) (- 6 -) (- 4 -)
2 (- 2 -) (L - -) (- 2 -)
3 (- 5 -) (- 2 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 2 -) (- 6 -) (- 4 -) (? ? ?)
2 (? ? ?) (- 2 -) (V - -) (- 2 -) (? ? ?)
3 (? ? ?) (- 5 -) (- 2 -) (- 1 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 514
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- 2 -) (- 6 -)
2 (- - -) (L 1 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (- 6 -) (? ? ?) (? ? ?)
2 (- - -) (V 1 -) (- - -) (? ? ?) (? ? ?)
3 (- 1 -) (- 5 -) (- 2 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 511
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- 2 -)
2 (L - -) (- 1 -)
3 (- 1 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 510
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- 2 -)
2 (U - -) (- 1 -)
3 (- 1 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 509
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- 2 -)
2 (R - -) (- 1 -)
3 (- 1 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 516
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- 2 -) (- 6 -)
2 (- - -) (R - -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (- 6 -) (? ? ?) (? ? ?)
2 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
3 (- 1 -) (- 5 -) (- 2 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 515
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- 2 -) (- 6 -)
2 (- - -) (D - -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (- 6 -) (? ? ?) (? ? ?)
2 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
3 (- 1 -) (- 5 -) (- 2 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 522
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 1 -) (D 4 -) (- 2 -)
4 (- - -) (- 5 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- 1 -) (V 4 -) (- 2 -) (? ? ?) (? ? ?)
4 (- - -) (- 5 -) (- 2 -) (? ? ?) (? ? ?)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (1, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 4 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 529
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 1 -) (- 4 -) (- 2 -)
4 (- - -) (D 4 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 4 -) (- 2 -) (? ? ?) (? ? ?)
4 (- - -) (V 4 -) (- 2 -) (? ? ?) (? ? ?)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 538
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 1 -) (- 4 -) (- 2 -)
4 (- - -) (L 3 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 4 -) (- 2 -) (? ? ?) (? ? ?)
4 (- - -) (V 3 -) (- 2 -) (? ? ?) (? ? ?)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 535
PERCEPT
0 1
(A G T) (A G T)
3 (- 1 -) (- 4 -)
4 (L - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 534
PERCEPT
0 1
(A G T) (A G T)
3 (- 1 -) (- 4 -)
4 (U - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 541
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U - -) (- 4 -)
4 (- - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 540
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (R - -) (- 4 -)
4 (- - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 547
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 3 -) (- 2 -)
4 (- - -) (- 3 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 3 -) (- 2 -) (? ? ?) (? ? ?)
4 (- - -) (- 3 -) (- 2 -) (? ? ?) (? ? ?)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 554
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 2 -)
3 (- 3 -) (R 1 -) (- 1 -)
4 (- 3 -) (- 2 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- 2 -) (? ? ?)
3 (? ? ?) (- 3 -) (V 1 -) (- 1 -) (? ? ?)
4 (? ? ?) (- 3 -) (- 2 -) (- 2 -) (? ? ?)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 561
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 2 -) (- - -)
3 (- 1 -) (R - -) (- - -)
4 (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- 2 -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- 2 -) (- 2 -) (- - -)
<STEP 83>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 560
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 2 -) (- - -)
3 (- 1 -) (D - -) (- - -)
4 (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- 2 -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- 2 -) (- 2 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 1 -) (V - -)
Agent performance: 567
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 1 -) (- - -) (- - -)
4 (- 2 -) (D 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (- 2 -) (V 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V - -) (V - -)
Agent performance: 576
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 1 -) (- - -) (- - -)
4 (- 2 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (- 2 -) (V - -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
Agent performance: 583
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 3 -) (- 1 -) (- - -)
4 (- 3 -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 3 -) (- 1 -) (- - -) (? ? ?)
4 (? ? ?) (- 3 -) (V 1 -) (- - -) (? ? ?)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
Agent performance: 590
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 3 -) (- 1 -)
4 (- - -) (L 2 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 3 -) (- 1 -) (? ? ?) (? ? ?)
4 (- - -) (V 2 -) (- 1 -) (? ? ?) (? ? ?)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
Agent performance: 587
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 3 -)
4 (L - -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
Agent performance: 586
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 3 -)
4 (U - -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
Agent performance: 585
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 3 -)
4 (R - -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 1 -) (V 1 -) (V - -) (V - -)
Agent performance: 592
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 3 -) (- 1 -)
4 (- - -) (R 1 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 3 -) (- 1 -) (? ? ?) (? ? ?)
4 (- - -) (V 1 -) (- 1 -) (? ? ?) (? ? ?)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 599
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 3 -) (- 1 -) (- - -)
4 (- 1 -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 3 -) (- 1 -) (- - -) (? ? ?)
4 (? ? ?) (- 1 -) (V - -) (- - -) (? ? ?)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 598
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 3 -) (- 1 -) (- - -)
4 (- 1 -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 3 -) (- 1 -) (- - -) (? ? ?)
4 (? ? ?) (- 1 -) (V - -) (- - -) (? ? ?)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 597
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 3 -) (- 1 -) (- - -)
4 (- 1 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 3 -) (- 1 -) (- - -) (? ? ?)
4 (? ? ?) (- 1 -) (V - -) (- - -) (? ? ?)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 604
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 3 -) (- 1 -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 3 -) (- 1 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 603
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 3 -) (- 1 -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 3 -) (- 1 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 610
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (U 2 -) (- 1 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 2 -) (- 1 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 607
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- 2 -) (- 6 -)
2 (- - -) (U - -) (- - -)
3 (- - -) (- 2 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 2 -) (- 6 -) (? ? ?) (? ? ?)
2 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (- 2 -) (- 1 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 614
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -)
1 (- - -) (U 1 -) (- 6 -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (? ? ?) (? ? ?)
1 (- - -) (V 1 -) (- 6 -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 621
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U 4 -) (- 1 -)
1 (- - -) (- 1 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 4 -) (- 1 -) (? ? ?) (? ? ?)
1 (- - -) (- 1 -) (- 6 -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 630
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 3 -) (- 1 -)
1 (- - -) (- 1 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 3 -) (- 1 -) (? ? ?) (? ? ?)
1 (- - -) (- 1 -) (- 6 -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 3 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 637
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 3 -) (R - -) (- 3 -)
1 (- 1 -) (- 6 -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 3 -) (V - -) (- 3 -) (? ? ?)
1 (? ? ?) (- 1 -) (- 6 -) (- 4 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 644
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 2 -) (- - -)
1 (- 6 -) (- 4 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V 2 -) (- - -)
1 (? ? ?) (? ? ?) (- 6 -) (- 4 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 641
PERCEPT
3 4
(A G T) (A G T)
0 (- 2 -) (R - -)
1 (- 4 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 640
PERCEPT
3 4
(A G T) (A G T)
0 (- 2 -) (D - -)
1 (- 4 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
3 4
(A G T) (A G T)
0 (- 2 -) (- - -)
1 (- 4 -) (D 1 -)
2 (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 644
PERCEPT
3 4
(A G T) (A G T)
1 (- 4 -) (- 1 -)
2 (- 2 -) (D - -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 108>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 643
PERCEPT
3 4
(A G T) (A G T)
1 (- 4 -) (- 1 -)
2 (- 2 -) (L - -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 6 -) (- 4 -) (- 1 -)
2 (- - -) (L 1 -) (- - -)
3 (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 6 -) (- 4 -) (- 1 -)
2 (? ? ?) (? ? ?) (- - -) (V 1 -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 1 -) (- 6 -) (- 4 -)
2 (- - -) (L - -) (- 1 -)
3 (- 2 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 1 -) (- 6 -) (- 4 -) (? ? ?)
2 (? ? ?) (- - -) (V - -) (- 1 -) (? ? ?)
3 (? ? ?) (- 2 -) (- 1 -) (- - -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 646
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 1 -) (- 6 -) (- 4 -)
2 (- - -) (U - -) (- 1 -)
3 (- 2 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 1 -) (- 6 -) (- 4 -) (? ? ?)
2 (? ? ?) (- - -) (V - -) (- 1 -) (? ? ?)
3 (? ? ?) (- 2 -) (- 1 -) (- - -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 3 -) (- - -) (- 2 -)
1 (- 1 -) (U 5 -) (- 4 -)
2 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 3 -) (- - -) (- 2 -) (? ? ?)
1 (? ? ?) (- 1 -) (V 5 -) (- 4 -) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 3 -) (U - -) (- 2 -)
1 (- 1 -) (- 5 -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 3 -) (V - -) (- 2 -) (? ? ?)
1 (? ? ?) (- 1 -) (- 5 -) (- 4 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 649
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 3 -) (R - -) (- 2 -)
1 (- 1 -) (- 5 -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 3 -) (V - -) (- 2 -) (? ? ?)
1 (? ? ?) (- 1 -) (- 5 -) (- 4 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- - -)
1 (- 5 -) (- 4 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V 1 -) (- - -)
1 (? ? ?) (? ? ?) (- 5 -) (- 4 -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
3 4
(A G T) (A G T)
0 (- 1 -) (R - -)
1 (- 4 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 652
PERCEPT
3 4
(A G T) (A G T)
0 (- 1 -) (D - -)
1 (- 4 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
3 4
(A G T) (A G T)
0 (- 1 -) (- - -)
1 (- 4 -) (D - -)
2 (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
3 4
(A G T) (A G T)
0 (- 1 -) (- - -)
1 (- 4 -) (L - -)
2 (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 665
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- 5 -) (L 3 -) (- - -)
2 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
1 (? ? ?) (? ? ?) (- 5 -) (V 3 -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 672
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 3 -) (- - -) (- 1 -)
1 (- 1 -) (L 4 -) (- 3 -)
2 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 3 -) (- - -) (- 1 -) (? ? ?)
1 (? ? ?) (- 1 -) (V 4 -) (- 3 -) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 679
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -)
1 (- - -) (L - -) (- 4 -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- 4 -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 678
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -)
1 (- - -) (U - -) (- 4 -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- 4 -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 685
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U 2 -) (- - -)
1 (- - -) (- - -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 2 -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- 4 -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 694
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- - -)
1 (- - -) (- - -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 1 -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- 4 -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 691
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 -) (R - -) (- 1 -)
1 (- - -) (- 4 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 -) (V - -) (- 1 -) (? ? ?)
1 (? ? ?) (- - -) (- 4 -) (- 3 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 698
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- 4 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 4 -) (- 3 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 697
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- 4 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 4 -) (- 3 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 704
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 4 -) (D 2 -) (- - -)
2 (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 4 -) (V 2 -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 711
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 4 -) (- 2 -) (- - -)
2 (- - -) (D - -) (- - -)
3 (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 4 -) (- 2 -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 710
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 4 -) (- 2 -) (- - -)
2 (- - -) (L - -) (- - -)
3 (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 4 -) (- 2 -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 709
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 4 -) (- 2 -) (- - -)
2 (- - -) (U - -) (- - -)
3 (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 4 -) (- 2 -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 716
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 4 -) (U 1 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 4 -) (V 1 -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 713
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- 4 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 4 -) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 712
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- 4 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 4 -) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 711
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- 4 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 4 -) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 718
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 4 -) (D - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 4 -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 717
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 4 -) (L - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 4 -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 724
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 -) (- - -) (- - -)
1 (- - -) (L 3 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V 3 -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 721
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (L - -) (- 3 -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- 3 -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 720
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -)
1 (- - -) (U - -) (- 3 -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- 3 -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 727
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- - -) (- - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- 3 -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 726
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- 3 -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 723
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- 3 -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 722
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- 3 -) (- - -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 729
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D 2 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V 2 -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 726
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- 2 -) (- - -)
2 (- - -) (D - -) (- - -)
3 (- 2 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- 2 -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
3 (? ? ?) (- 2 -) (- 1 -) (- - -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 733
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 2 -) (D - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 2 -) (V - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 732
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 2 -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 2 -) (V - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 739
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (L 1 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 1 -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 736
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (L - -) (- 1 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 735
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U - -) (- 1 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 734
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (R - -) (- 1 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 741
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 740
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 739
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 738
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (U - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 735
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- 2 -)
2 (- - -) (U - -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- 2 -) (? ? ?) (? ? ?)
2 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 732
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- 2 -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- 2 -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 731
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- 2 -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- 2 -) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 738
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R 1 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V 1 -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 735
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 1 -) (R - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 734
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 1 -) (D - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 164>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 733
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 1 -) (L - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 740
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STARTING>
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 100
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 3 -) (- 5 -) (- 5 -)
3 (- 4 -) (L 2 1) (- 2 -)
4 (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- 3 -) (- 5 -) (- 5 -)
3 (? ? ?) (? ? ?) (- 4 -) (V 2 1) (- 2 -)
4 (? ? ?) (? ? ?) (- 4 1) (- 4 1) (- 3 -)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (V 1 -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 105
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 3 -) (- 5 -) (- 5 -)
3 (- 4 -) (L 1 -) (- 2 -)
4 (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- 3 -) (- 5 -) (- 5 -)
3 (? ? ?) (? ? ?) (- 4 -) (V 2 1) (- 2 -)
4 (? ? ?) (? ? ?) (- 4 1) (- 4 1) (- 3 -)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 115
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 3 -) (- 5 -) (- 5 -)
3 (- 4 -) (L - -) (- 2 -)
4 (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- 3 -) (- 5 -) (- 5 -)
3 (? ? ?) (? ? ?) (- 4 -) (V 1 -) (- 2 -)
4 (? ? ?) (? ? ?) (- 4 1) (- 4 1) (- 3 -)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V 3 -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 124
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 4 -) (- 3 -) (- 5 -)
3 (- 7 -) (L 3 -) (- - -)
4 (- 7 -) (- 4 1) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (? ? ?) (- 7 -) (V 4 -) (V - -) (- 2 -)
4 (? ? ?) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 4>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V 2 -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 134
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 4 -) (- 3 -) (- 5 -)
3 (- 7 -) (L 2 -) (- - -)
4 (- 7 -) (- 4 1) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (? ? ?) (- 7 -) (V 3 -) (V - -) (- 2 -)
4 (? ? ?) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V 1 -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 144
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 4 -) (- 3 -) (- 5 -)
3 (- 7 -) (L 1 -) (- - -)
4 (- 7 -) (- 4 1) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (? ? ?) (- 7 -) (V 2 -) (V - -) (- 2 -)
4 (? ? ?) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 6>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 154
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 4 -) (- 3 -) (- 5 -)
3 (- 7 -) (L - -) (- - -)
4 (- 7 -) (- 4 1) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (? ? ?) (- 7 -) (V 1 -) (V - -) (- 2 -)
4 (? ? ?) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 6 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 163
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 2 -) (- 4 -) (- 3 -)
3 (- 7 -) (L 6 -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 7 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 5 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 173
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 2 -) (- 4 -) (- 3 -)
3 (- 7 -) (L 5 -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 6 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 4 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 183
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 2 -) (- 4 -) (- 3 -)
3 (- 7 -) (L 4 -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 5 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 10>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 3 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 193
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 2 -) (- 4 -) (- 3 -)
3 (- 7 -) (L 3 -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 4 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 2 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 203
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 2 -) (- 4 -) (- 3 -)
3 (- 7 -) (L 2 -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 3 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 12>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 1 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 213
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 2 -) (- 4 -) (- 3 -)
3 (- 7 -) (L 1 -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 2 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 13>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 223
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 2 -) (- 4 -) (- 3 -)
3 (- 7 -) (L - -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 1 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 6 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 232
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 -) (- 4 -)
3 (L 6 -) (- - -)
4 (- 3 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 7 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 241
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 -) (- 4 -)
3 (U 5 -) (- - -)
4 (- 3 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 6 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 16>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 4 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 251
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 -) (- 4 -)
3 (U 4 -) (- - -)
4 (- 3 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 3 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 261
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 -) (- 4 -)
3 (U 3 -) (- - -)
4 (- 3 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 4 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 2 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 271
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 -) (- 4 -)
3 (U 2 -) (- - -)
4 (- 3 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 3 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 19>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 1 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 281
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 -) (- 4 -)
3 (U 1 -) (- - -)
4 (- 3 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 2 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 20>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 291
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 -) (- 4 -)
3 (U - -) (- - -)
4 (- 3 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 1 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 300
PERCEPT
0 1
(A G T) (A G T)
1 (- 2 1) (- 3 -)
2 (U 1 -) (- 4 -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 2 1) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 22>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 310
PERCEPT
0 1
(A G T) (A G T)
1 (- 2 1) (- 3 -)
2 (U - -) (- 4 -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 2 1) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 314
PERCEPT
0 1
(A G T) (A G T)
0 (- 2 -) (- 6 -)
1 (U 1 -) (- 3 -)
2 (- - -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 2 1) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 324
PERCEPT
0 1
(A G T) (A G T)
0 (- 2 -) (- 6 -)
1 (U - -) (- 3 -)
2 (- - -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 1 -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 333
PERCEPT
0 1
(A G T) (A G T)
0 (U 1 -) (- 6 -)
1 (- - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 342
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 6 -)
1 (- - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 351
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 5 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 -) (- 2 -) (? ? ?) (? ? ?)
1 (V - -) (- 3 -) (- 7 1) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 28>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 361
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 4 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (- 2 -) (? ? ?) (? ? ?)
1 (V - -) (- 3 -) (- 7 1) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 371
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 3 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 -) (- 2 -) (? ? ?) (? ? ?)
1 (V - -) (- 3 -) (- 7 1) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 30>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 381
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 2 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (- 2 -) (? ? ?) (? ? ?)
1 (V - -) (- 3 -) (- 7 1) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 391
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 -) (- 2 -) (? ? ?) (? ? ?)
1 (V - -) (- 3 -) (- 7 1) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 32>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 401
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- 2 -) (? ? ?) (? ? ?)
1 (V - -) (- 3 -) (- 7 1) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 410
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 4 -)
1 (- 3 -) (- 7 1) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (- 4 -) (? ? ?)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (? ? ?)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 420
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 4 -)
1 (- 3 -) (- 7 1) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (- 4 -) (? ? ?)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (? ? ?)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 3 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 429
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 3 -) (- 2 -)
1 (- 7 1) (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 36>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 2 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 439
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 2 -) (- 2 -)
1 (- 7 1) (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 3 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 37>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 449
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 2 -)
1 (- 7 1) (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 2 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 38>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 459
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 2 -)
1 (- 7 1) (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 1 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 468
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R 1 -)
1 (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 477
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 1 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 486
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 5 -) (D 4 -)
2 (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 42>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 3 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 496
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 5 -) (D 3 -)
2 (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 506
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 5 -) (D 2 -)
2 (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 3 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 44>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 1 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 516
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 5 -) (D 1 -)
2 (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 526
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 5 -) (D - -)
2 (- 5 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 1 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 535
PERCEPT
3 4
(A G T) (A G T)
1 (- 5 -) (- - -)
2 (- 5 -) (D 4 -)
3 (- - -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 545
PERCEPT
3 4
(A G T) (A G T)
1 (- 5 -) (- - -)
2 (- 5 -) (D 3 -)
3 (- - -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 48>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 2 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 555
PERCEPT
3 4
(A G T) (A G T)
1 (- 5 -) (- - -)
2 (- 5 -) (D 2 -)
3 (- - -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 49>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 1 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 565
PERCEPT
3 4
(A G T) (A G T)
1 (- 5 -) (- - -)
2 (- 5 -) (D 1 -)
3 (- - -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 2 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 575
PERCEPT
3 4
(A G T) (A G T)
1 (- 5 -) (- - -)
2 (- 5 -) (D - -)
3 (- - -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 1 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 584
PERCEPT
3 4
(A G T) (A G T)
2 (- 5 -) (- - -)
3 (- - -) (D 1 -)
4 (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 52>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 594
PERCEPT
3 4
(A G T) (A G T)
2 (- 5 -) (- - -)
3 (- - -) (D - -)
4 (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 2 -)
Agent performance: 603
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- 4 1) (D 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 3 -)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 1 -)
Agent performance: 612
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- 4 1) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 2 -)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V - -)
Agent performance: 622
PERCEPT
3 4
(A G T) (A G T)
3 (- - -) (- - -)
4 (- 4 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 1 -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 3 -) (V - -)
Agent performance: 626
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 4 1) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 4 1) (V - -)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 2 -) (V - -)
Agent performance: 636
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 4 1) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 3 -) (V - -)
<STEP 58>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 1 -) (V - -)
Agent performance: 646
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 4 1) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 2 -) (V - -)
<STEP 59>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V - -) (V - -)
Agent performance: 656
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 4 1) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 1 -) (V - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 3 -) (V - -) (V - -)
Agent performance: 660
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 7 -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 4 1) (V - -) (V - -)
<STEP 61>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 2 -) (V - -) (V - -)
Agent performance: 670
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 7 -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 3 -) (V - -) (V - -)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 1 -) (V - -) (V - -)
Agent performance: 680
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 7 -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 2 -) (V - -) (V - -)
<STEP 63>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V - -) (V - -) (V - -)
Agent performance: 690
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 7 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 1 -) (V - -) (V - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 6 -) (V - -) (V - -) (V - -)
Agent performance: 699
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 3 -) (L 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 7 -) (V - -) (V - -) (V - -)
<STEP 65>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 5 -) (V - -) (V - -) (V - -)
Agent performance: 709
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 3 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 6 -) (V - -) (V - -) (V - -)
<STEP 66>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 4 -) (V - -) (V - -) (V - -)
Agent performance: 719
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 3 -) (L 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 5 -) (V - -) (V - -) (V - -)
<STEP 67>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 3 -) (V - -) (V - -) (V - -)
Agent performance: 729
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 3 -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 4 -) (V - -) (V - -) (V - -)
<STEP 68>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 2 -) (V - -) (V - -) (V - -)
Agent performance: 739
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 3 -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 3 -) (V - -) (V - -) (V - -)
<STEP 69>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 749
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 3 -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 2 -) (V - -) (V - -) (V - -)
<STEP 70>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 759
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- - -) (- - -)
4 (- 3 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 1 -) (V - -) (V - -) (V - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 768
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V 3 -) (V - -) (V - -) (V - -) (V - -)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 777
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (U 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - -)
<STEP 73>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 787
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- - -)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 784
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- 4 -)
3 (U - -) (- - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 781
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- 3 -)
2 (U - -) (- 4 -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 780
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- 3 -)
2 (R - -) (- 4 -)
3 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 3 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 789
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- 3 -) (- 7 1)
2 (- - -) (R 3 -) (- 3 -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 78>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 2 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 799
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- 3 -) (- 7 1)
2 (- - -) (R 2 -) (- 3 -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 3 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 79>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 1 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 809
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- 3 -) (- 7 1)
2 (- - -) (R 1 -) (- 3 -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 2 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 80>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 819
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- 3 -) (- 7 1)
2 (- - -) (R - -) (- 3 -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 1 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V 2 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 828
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 3 -) (- 7 1) (- 5 -)
2 (- - -) (R 2 -) (- 5 -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 82>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V 1 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 838
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 3 -) (- 7 1) (- 5 -)
2 (- - -) (R 1 -) (- 5 -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V 2 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 83>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 848
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 3 -) (- 7 1) (- 5 -)
2 (- - -) (R - -) (- 5 -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V 1 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 4 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 857
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 7 1) (- 5 -) (- - -)
2 (- - -) (R 4 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 85>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 867
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 7 1) (- 5 -) (- - -)
2 (- - -) (R 3 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 4 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 86>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 877
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 7 1) (- 5 -) (- - -)
2 (- - -) (R 2 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 87>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 887
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 7 1) (- 5 -) (- - -)
2 (- - -) (R 1 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 88>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 897
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 7 1) (- 5 -) (- - -)
2 (- - -) (R - -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 896
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 7 1) (- 5 -) (- - -)
2 (- - -) (D - -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 895
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 7 1) (- 5 -) (- - -)
2 (- - -) (L - -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 894
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 7 1) (- 5 -) (- - -)
2 (- - -) (U - -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 4 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 903
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 7 1) (U 4 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 93>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 913
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 7 1) (U 3 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 4 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 94>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 923
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 7 1) (U 2 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 95>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 933
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 7 1) (U 1 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 96>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 943
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 7 1) (U - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 942
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 7 1) (R - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 941
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 7 1) (D - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 940
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 7 1) (L - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 6 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 944
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 3 -) (L 6 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 101>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 5 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 954
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 3 -) (L 5 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 6 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 102>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 4 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 964
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 3 -) (L 4 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 5 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 103>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 974
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 3 -) (L 3 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 4 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 104>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 984
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 3 -) (L 2 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 105>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 994
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 3 -) (L 1 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 106>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1004
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 3 -) (L - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 2 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1013
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 2 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 108>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1023
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 1 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 2 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 109>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1033
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STARTING>
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (L 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (L 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (L 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 6 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (L 6 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 6 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (U 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (U 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (U 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (- 2 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 5 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 5 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (R 1 -) (- 4 -) (- 2 -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (V 1 -) (- 4 -) (- 2 -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (R 3 -) (- 2 -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (V 3 -) (- 2 -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V 1 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (R 1 -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (V 1 -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (D - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (V - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (D 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (D 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (D 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 2 -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (D 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 2 -)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 1 -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 1 -)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (V 3 -) (V 1 -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (L 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (V 3 -) (- 1 -)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (- 3 -) (- 7 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 3 -) (- 7 -) (L 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 3 -) (- 7 -) (V 3 -) (- 3 -) (- 1 -)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (- 3 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 3 -) (L 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 3 -) (V 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 2 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (L 2 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (V 2 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 5 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (U 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 5 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (V 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (U 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- 1 -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (V 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (U - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- 1 -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (U - -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (R - -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 4 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (- 7 1) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 321
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (R 2 -) (- 7 1) (- 5 -) (- 4 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (V 2 -) (- 7 1) (- 5 -) (- 4 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 325
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (R 6 -) (- 5 -) (- 4 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (V 6 -) (- 5 -) (- 4 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 334
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (R 4 -) (- 4 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (V 4 -) (- 4 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 3 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 341
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (R 3 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (V 3 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 350
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (D 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (V 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 4 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V 1 -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 357
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (D 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- 1 -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V 1 -)
Agent performance: 364
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (D - -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (V - -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (- 1 -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V - -)
Agent performance: 371
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (V - -)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V 1 -) (V 6 -) (V 3 -) (V 3 -) (V - -)
Agent performance: 370
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- 1 -) (- 6 -) (- 3 -) (- 3 -) (V - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V 1 -) (V 6 -) (V 3 -) (V 2 -) (V - -)
Agent performance: 377
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- 1 -) (- 6 -) (- 3 -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- 1 -) (- 6 -) (- 3 -) (V 2 -) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V 1 -) (V 6 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 384
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- 1 -) (- 6 -) (L 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- 1 -) (- 6 -) (V 2 -) (- 2 -) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V 1 -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 391
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- 1 -) (L 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- 1 -) (V 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 398
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (L - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (V - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 4 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 397
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (U - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 4 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (V - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 404
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (U 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (V 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 401
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (U - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 400
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (R - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (- 3 -) (- 5 -) (V 3 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 409
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (R 3 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (V 3 -) (- 3 -) (- 5 -) (- 3 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (- 5 -) (V 3 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 418
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (R 2 -) (- 5 -) (- 3 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (V 2 -) (- 5 -) (- 3 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 3 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 427
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (R 4 -) (- 3 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (V 4 -) (- 3 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 2 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 434
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (R 2 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (V 2 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 443
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (D 1 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (V 1 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 440
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (D - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (V - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 2 1) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 439
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (L - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 3 -) (- 6 -) (- 3 -) (- 2 1) (V - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 3 -) (V 6 -) (V 3 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 441
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 3 -) (- 6 -) (- 3 -) (L 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 3 -) (- 6 -) (- 3 -) (V 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 3 -) (V 6 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 448
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 3 -) (- 6 -) (L 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 3 -) (- 6 -) (V 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 3 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 455
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 3 -) (L 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 3 -) (V 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 2 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 462
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (L 2 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (V 2 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 471
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (U 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (V 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 468
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (U - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (V - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 3 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 467
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (R - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (V - -) (- 3 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 2 -) (V 4 -) (V 1 -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 474
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (R 2 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (V 2 -) (- 2 -) (- 4 -) (- 1 -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 1 -) (V 4 -) (V 1 -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 481
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (R 1 -) (- 4 -) (- 1 -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (V 1 -) (- 4 -) (- 1 -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 1 -) (V 3 -) (V 1 -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 488
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (- 1 -) (R 3 -) (- 1 -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (- 1 -) (V 3 -) (- 1 -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 1 -) (V 3 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 495
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (- 1 -) (- 3 -) (R - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (- 1 -) (- 3 -) (V - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 1 -) (V 3 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 494
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (- 1 -) (- 3 -) (D - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (- 1 -) (- 3 -) (V - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 1 -) (V 3 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 493
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (- 1 -) (- 3 -) (L - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (- 1 -) (- 3 -) (V - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V 1 -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 500
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (- 1 -) (L 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (- 1 -) (V 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 2 -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 507
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (L - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- 2 -) (V - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 514
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (L 1 -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (V 1 -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (L - -) (- 1 -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 510
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (U - -) (- 1 -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 509
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (R - -) (- 1 -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 516
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (R - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (V - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 5 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 515
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (D - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (V - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 5 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 5 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 522
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (D 4 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (V 4 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 5 -) (- 2 -) (- 2 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (1, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 4 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 529
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 4 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (D 4 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 4 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (V 4 -) (- 2 -) (- 2 -) (- - -)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 538
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 4 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (L 3 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 4 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (V 3 -) (- 2 -) (- 2 -) (- - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 535
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 4 -) (- 2 -) (- 1 -) (- - -)
4 (L - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 4 -) (- 2 -) (- 1 -) (- - -)
4 (V - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V 1 -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 534
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 4 -) (- 2 -) (- 1 -) (- - -)
4 (U - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- 1 -) (- 4 -) (- 2 -) (- 1 -) (- - -)
4 (V - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 541
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (U - -) (- 4 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (V - -) (- 4 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 4 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 540
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (R - -) (- 4 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (V - -) (- 4 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 2 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 547
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (R 3 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (V 3 -) (- 2 -) (- 1 -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V 1 -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 554
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (R 1 -) (- 1 -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (V 1 -) (- 1 -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 561
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (R - -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (V - -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
<STEP 83>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 2 -) (V - -)
Agent performance: 560
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (D - -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (V - -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (- 2 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V 1 -) (V - -)
Agent performance: 567
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (D 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (V 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 3 -) (V 2 -) (V - -) (V - -)
Agent performance: 576
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 3 -) (- 2 -) (V - -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
Agent performance: 583
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 3 -) (L 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 3 -) (V 1 -) (- - -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
Agent performance: 590
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (L 2 -) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (V 2 -) (- 1 -) (- - -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
Agent performance: 587
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (L - -) (- 2 -) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (V - -) (- 2 -) (- 1 -) (- - -) (- - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
Agent performance: 586
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (U - -) (- 2 -) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (V - -) (- 2 -) (- 1 -) (- - -) (- - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
Agent performance: 585
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (R - -) (- 2 -) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (V - -) (- 2 -) (- 1 -) (- - -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 1 -) (V 1 -) (V - -) (V - -)
Agent performance: 592
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (R 1 -) (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (V 1 -) (- 1 -) (- - -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 599
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 1 -) (R - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 1 -) (V - -) (- - -) (- - -)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 598
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 1 -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 1 -) (V - -) (- - -) (- - -)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 597
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 1 -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- 1 -) (V - -) (- - -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 604
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (L - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (V - -) (- - -) (- - -) (- - -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 603
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (U - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 3 -) (- 1 -) (- - -) (- - -)
4 (- - -) (V - -) (- - -) (- - -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 610
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (U 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (V 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 607
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (U - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 2 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (V - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 614
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (U 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (V 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 621
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U 4 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 4 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 1 -) (V 3 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 630
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 3 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 3 -) (- 1 -) (- 3 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 3 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 637
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (R - -) (- 3 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (V - -) (- 3 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 644
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (R 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (V 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 641
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (R - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (V - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 2 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 640
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (D - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (V - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 2 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (D 1 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (V 1 -)
2 (- - -) (- - -) (- - -) (- 2 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 644
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 2 -) (D - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 2 -) (V - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 108>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 643
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 2 -) (L - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 2 -) (V - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (L 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (V 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 647
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (L - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (V - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (U - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 6 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (V - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (U 5 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (V 5 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (U - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (V - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 2 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (R - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (V - -) (- 2 -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (R 1 -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (V 1 -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (R - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (V - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V 1 -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 652
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (D - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (V - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (- 1 -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (D - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (V - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 4 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (L - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (- 4 -) (V - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 665
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (L 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (V 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V 1 -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 672
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (L 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (- - -)
1 (- - -) (- 1 -) (V 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (- - -)
1 (- - -) (L - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (- - -)
1 (- - -) (V - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (- - -)
1 (- - -) (U - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- - -) (- 1 -) (- - -)
1 (- - -) (V - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U 2 -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 2 -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 694
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 1 -) (- - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 691
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (R - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 698
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (V - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 697
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (D - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (V - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 704
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (D 2 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (V 2 -) (- - -)
2 (- - -) (- - -) (- - -) (- 1 -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 711
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 2 -) (- - -)
2 (- - -) (- - -) (- - -) (D - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 2 -) (- - -)
2 (- - -) (- - -) (- - -) (V - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 710
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 2 -) (- - -)
2 (- - -) (- - -) (- - -) (L - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 2 -) (- - -)
2 (- - -) (- - -) (- - -) (V - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 709
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 2 -) (- - -)
2 (- - -) (- - -) (- - -) (U - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 2 -) (- - -)
2 (- - -) (- - -) (- - -) (V - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 716
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (U 1 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (V 1 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 713
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (U - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 1 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (V - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 1 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 712
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 1 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (V - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 1 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 711
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (D - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 1 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (V - -) (- - -)
1 (- - -) (- - -) (- 4 -) (- 1 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 718
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (D - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (V - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 717
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (L - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 4 -) (V - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 724
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (L 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 721
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (V - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 720
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- - -) (- - -) (- - -)
1 (- - -) (V - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 727
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 726
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 725
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 722
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (V - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 721
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (V - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 720
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (V - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 719
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (V - -) (- 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 726
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (R 2 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V 2 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 723
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 2 -) (R - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 2 -) (V - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 722
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 2 -) (D - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 2 -) (V - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 721
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 2 -) (L - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- 2 -) (V - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 728
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (L 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 725
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (V - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 724
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (V - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 723
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (V - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 730
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (R - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 729
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (D - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 726
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 2 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 733
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 732
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 739
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (L 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (V 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 736
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (L - -) (- 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 735
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (U - -) (- 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 734
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (R - -) (- 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 741
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (R - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STARTING>
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (L 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (V 2 1) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (V 1 -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (L 1 -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (V 1 -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (L - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (- 4 -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V 3 -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (L 3 -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V 3 -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 4>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V 2 -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (L 2 -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V 2 -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V 1 -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (L 1 -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V 1 -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 6>
SELECTED ACTION: Stay
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (L - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (- 7 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 6 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (L 6 -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 6 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 5 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (L 5 -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 5 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 4 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (L 4 -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 4 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 10>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 3 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (L 3 -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 3 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 2 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (L 2 -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 2 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 12>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 1 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (L 1 -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V 1 -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 13>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (L - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- 7 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 6 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (L 6 -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 6 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (U 5 -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 5 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 16>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 4 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (U 4 -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 4 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 3 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (U 3 -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 3 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 2 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (U 2 -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 2 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 19>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 1 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (U 1 -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V 1 -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 20>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (U - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- 2 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (U 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V 1 -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 22>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (U - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- 2 1) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (U 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V 1 -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 324
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (U - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 333
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 342
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 6 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 351
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 5 -) (- 2 -) (- 4 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 28>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 361
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 4 -) (- 2 -) (- 4 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 371
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 3 -) (- 2 -) (- 4 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 30>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 381
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 2 -) (- 2 -) (- 4 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 391
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 2 -) (- 4 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 32>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 401
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 2 -) (- 4 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- 2 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 410
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 1 -) (- 4 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 420
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- 4 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- 4 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 3 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 429
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 3 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 3 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 36>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 2 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 439
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 2 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 2 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 37>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 449
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 1 -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 38>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 459
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- 2 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- 2 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 1 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 468
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R 1 -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 1 -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 477
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (- 5 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 486
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (D 4 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 4 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 42>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 3 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 496
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (D 3 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 3 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 506
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (D 2 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 2 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 44>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 1 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 516
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (D 1 -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V 1 -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 526
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (D - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (- 5 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 535
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (D 4 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 4 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 545
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (D 3 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 3 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 48>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 2 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 555
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (D 2 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 2 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 49>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 1 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 565
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (D 1 -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V 1 -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 575
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (D - -)
3 (- - -) (- - -) (- - -) (- - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (- 2 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 584
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (D 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V 1 -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 52>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
Agent performance: 594
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (D - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (- 3 -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 2 -)
Agent performance: 603
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (D 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 2 -)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 1 -)
Agent performance: 612
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V 1 -)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V - -)
Agent performance: 622
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (- 4 1) (V - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 3 -) (V - -)
Agent performance: 626
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 3 -) (V - -)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 2 -) (V - -)
Agent performance: 636
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 2 -) (V - -)
<STEP 58>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 1 -) (V - -)
Agent performance: 646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V 1 -) (V - -)
<STEP 59>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V - -) (V - -)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (- 7 -) (- 4 1) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (- 4 1) (V - -) (V - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 3 -) (V - -) (V - -)
Agent performance: 660
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (- 7 -) (L 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 3 -) (V - -) (V - -)
<STEP 61>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 2 -) (V - -) (V - -)
Agent performance: 670
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (- 7 -) (L 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 2 -) (V - -) (V - -)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 1 -) (V - -) (V - -)
Agent performance: 680
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (- 7 -) (L 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V 1 -) (V - -) (V - -)
<STEP 63>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V - -) (V - -) (V - -)
Agent performance: 690
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (- 7 -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (- 7 -) (V - -) (V - -) (V - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 6 -) (V - -) (V - -) (V - -)
Agent performance: 699
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (L 6 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 6 -) (V - -) (V - -) (V - -)
<STEP 65>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 5 -) (V - -) (V - -) (V - -)
Agent performance: 709
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (L 5 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 5 -) (V - -) (V - -) (V - -)
<STEP 66>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 4 -) (V - -) (V - -) (V - -)
Agent performance: 719
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (L 4 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 4 -) (V - -) (V - -) (V - -)
<STEP 67>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 3 -) (V - -) (V - -) (V - -)
Agent performance: 729
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (L 3 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 3 -) (V - -) (V - -) (V - -)
<STEP 68>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 2 -) (V - -) (V - -) (V - -)
Agent performance: 739
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (L 2 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 2 -) (V - -) (V - -) (V - -)
<STEP 69>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 749
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (L 1 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V 1 -) (V - -) (V - -) (V - -)
<STEP 70>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 759
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- 3 -) (L - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (- 3 -) (V - -) (V - -) (V - -) (V - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 768
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (L 2 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - -)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 777
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (U 1 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - -)
<STEP 73>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 787
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 784
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (U - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 781
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (U - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 780
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (R - -) (- 4 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (- 4 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 3 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 789
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (R 3 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 3 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 78>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 2 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 799
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (R 2 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 2 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 79>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 1 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 809
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (R 1 -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V 1 -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 80>
SELECTED ACTION: Stay
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 819
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (R - -) (- 3 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (- 3 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V 2 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 828
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- - -) (R 2 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V 2 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 82>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V 1 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 838
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- - -) (R 1 -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V 1 -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 83>
SELECTED ACTION: Stay
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 848
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- - -) (R - -) (- 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (- 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 4 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 857
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- - -) (- - -) (R 4 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 4 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 85>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 867
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- - -) (- - -) (R 3 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 86>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 877
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- - -) (- - -) (R 2 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 87>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 887
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- - -) (- - -) (R 1 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 88>
SELECTED ACTION: Stay
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 897
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- - -) (- - -) (R - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 896
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- - -) (- - -) (D - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 895
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- - -) (- - -) (L - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 894
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (- 5 -) (- - -)
2 (- - -) (- - -) (- - -) (U - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (- 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 4 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 903
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (U 4 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 4 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 93>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 913
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (U 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 94>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 923
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (U 2 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 95>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 933
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (U 1 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 96>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 943
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (U - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 942
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (R - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 941
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (D - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 940
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 1) (L - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (- 7 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 6 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 944
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (L 6 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 6 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 101>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 5 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 954
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (L 5 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 5 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 102>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 4 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 964
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (L 4 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 4 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 103>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 974
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (L 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 104>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 984
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (L 2 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 105>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 994
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (L 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 106>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1004
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 3 -) (L - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 3 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 2 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1013
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 2 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 2 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 108>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1023
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 1 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 109>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1033
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
985
<STARTING>
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 100
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 21 1) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 21 1) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 109
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 16 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 26 -) (V 16 -) (- 21 1) (? ? ?) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 25 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 118
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (L 25 -) (- 16 -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 25 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 9 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 127
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 24 -) (- 16 -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 24 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 9 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 136
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 17 -) (- 19 -)
2 (- 24 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 17 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 24 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 15 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 145
PERCEPT
0 1
(A G T) (A G T)
0 (U 15 -) (- 21 -)
1 (- 17 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 15 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 17 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 154
PERCEPT
0 1
(A G T) (A G T)
0 (R 14 -) (- 21 -)
1 (- 17 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 17 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 163
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 14 -) (R 20 -) (- 25 1)
1 (- 17 -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (V 20 -) (- 25 1) (? ? ?) (? ? ?)
1 (- 17 -) (- 19 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 167
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 20 -) (R 24 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 20 -) (V 24 -) (- 19 -) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 176
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 24 -) (R 18 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 24 -) (V 18 -) (- 19 -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 14 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 18 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 185
PERCEPT
3 4
(A G T) (A G T)
0 (- 18 -) (R 18 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 18 -) (V 18 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 14 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 194
PERCEPT
3 4
(A G T) (A G T)
0 (- 18 -) (D 17 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 18 -) (V 17 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 14 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 203
PERCEPT
3 4
(A G T) (A G T)
0 (- 18 -) (- 17 -)
1 (- 17 -) (D 13 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 18 -) (- 17 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 13 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 21 1)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 207
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 13 -)
2 (- 22 -) (D 20 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 13 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 20 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 216
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 20 -)
3 (- 25 -) (D 19 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 20 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 19 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 20 -)
Agent performance: 225
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 19 -)
4 (- 29 -) (D 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 19 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 20 -)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 19 -)
Agent performance: 234
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 19 -)
4 (- 29 -) (L 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 19 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 19 -)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (V 28 -) (V 19 -)
Agent performance: 243
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 19 -)
4 (- 27 -) (L 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 19 -)
4 (? ? ?) (? ? ?) (- 27 -) (V 28 -) (- 19 -)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 252
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 26 -) (- 28 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 17 -) (V 26 -) (- 28 -) (? ? ?)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 261
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 16 -) (- 26 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- 18 -) (V 16 -) (- 26 -) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 17 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 270
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (L 17 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 9 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 17 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 279
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 16 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 9 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 16 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 288
PERCEPT
0 1
(A G T) (A G T)
2 (- 24 -) (- 16 -)
3 (U 8 -) (- 20 1)
4 (- 16 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 24 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 8 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (- 16 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 295
PERCEPT
0 1
(A G T) (A G T)
1 (- 17 -) (- 19 -)
2 (U 23 -) (- 16 -)
3 (- 8 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 17 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 23 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 8 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 302
PERCEPT
0 1
(A G T) (A G T)
0 (- 14 -) (- 20 -)
1 (U 16 -) (- 19 -)
2 (- 23 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 16 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 13 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 309
PERCEPT
0 1
(A G T) (A G T)
0 (U 13 -) (- 20 -)
1 (- 16 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 13 -) (- 20 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 16 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 318
PERCEPT
0 1
(A G T) (A G T)
0 (R 12 -) (- 20 -)
1 (- 16 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (- 20 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 16 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 325
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 12 -) (R 19 -) (- 24 -)
1 (- 16 -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (V 19 -) (- 24 -) (? ? ?) (? ? ?)
1 (- 16 -) (- 19 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 18 -) (V 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 332
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 19 -) (R 23 -) (- 18 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 19 -) (V 23 -) (- 18 -) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 339
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 23 -) (R 17 -) (- 17 -)
1 (- 15 1) (- 17 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 23 -) (V 17 -) (- 17 -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 13 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 16 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 346
PERCEPT
3 4
(A G T) (A G T)
0 (- 17 -) (R 16 -)
1 (- 17 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 16 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 13 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 355
PERCEPT
3 4
(A G T) (A G T)
0 (- 17 -) (D 15 -)
1 (- 17 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 15 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 13 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 362
PERCEPT
3 4
(A G T) (A G T)
0 (- 17 -) (- 15 -)
1 (- 17 -) (D 12 -)
2 (- 22 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 15 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 12 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 20 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 369
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 12 -)
2 (- 22 -) (D 19 -)
3 (- 25 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 12 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 19 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 19 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 376
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 19 -)
3 (- 25 -) (D 18 -)
4 (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 19 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 18 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 28 -) (- 19 -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 18 -)
Agent performance: 383
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 18 -)
4 (- 28 -) (D 18 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 18 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 28 -) (V 18 -)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 17 -)
Agent performance: 392
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 18 -)
4 (- 28 -) (L 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 18 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 28 -) (V 17 -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 27 -) (V 17 -)
Agent performance: 399
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 18 -)
4 (- 26 -) (L 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 18 -)
4 (? ? ?) (? ? ?) (- 26 -) (V 27 -) (- 17 -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 16 -) (V 16 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 406
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 16 -) (L 25 -) (- 27 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 16 -) (V 25 -) (- 27 -) (? ? ?)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 16 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 413
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 8 -) (- 20 1) (- 24 -)
4 (- 16 -) (L 15 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 8 -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- 16 -) (V 15 -) (- 25 -) (? ? ?) (? ? ?)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 15 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 420
PERCEPT
0 1
(A G T) (A G T)
3 (- 8 -) (- 20 1)
4 (L 15 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 8 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 15 -) (- 15 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 429
PERCEPT
0 1
(A G T) (A G T)
3 (- 8 -) (- 20 1)
4 (U 14 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 8 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 14 -) (- 15 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 436
PERCEPT
0 1
(A G T) (A G T)
2 (- 23 -) (- 16 -)
3 (U 7 -) (- 20 1)
4 (- 14 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 23 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 7 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (- 14 -) (- 15 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 443
PERCEPT
0 1
(A G T) (A G T)
1 (- 16 -) (- 19 -)
2 (U 22 -) (- 16 -)
3 (- 7 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 16 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 22 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 7 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 450
PERCEPT
0 1
(A G T) (A G T)
0 (- 12 -) (- 19 -)
1 (U 15 -) (- 19 -)
2 (- 22 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 15 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 22 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 457
PERCEPT
0 1
(A G T) (A G T)
0 (U 11 -) (- 19 -)
1 (- 15 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 15 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 466
PERCEPT
0 1
(A G T) (A G T)
0 (R 10 -) (- 19 -)
1 (- 15 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 15 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 473
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 10 -) (R 18 -) (- 23 -)
1 (- 15 -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (V 18 -) (- 23 -) (? ? ?) (? ? ?)
1 (- 15 -) (- 19 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 17 -) (V 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 480
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 18 -) (R 22 -) (- 17 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 18 -) (V 22 -) (- 17 -) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 487
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 22 -) (R 16 -) (- 15 -)
1 (- 15 1) (- 17 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 22 -) (V 16 -) (- 15 -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 12 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 14 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 494
PERCEPT
3 4
(A G T) (A G T)
0 (- 16 -) (R 14 -)
1 (- 17 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (V 14 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 12 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 503
PERCEPT
3 4
(A G T) (A G T)
0 (- 16 -) (D 13 -)
1 (- 17 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (V 13 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 12 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 510
PERCEPT
3 4
(A G T) (A G T)
0 (- 16 -) (- 13 -)
1 (- 17 -) (D 11 -)
2 (- 22 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- 13 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 11 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 19 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 517
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 11 -)
2 (- 22 -) (D 18 -)
3 (- 25 -) (- 18 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 11 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 18 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 18 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 524
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 18 -)
3 (- 25 -) (D 17 -)
4 (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 18 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 17 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 27 -) (- 17 -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 16 -)
Agent performance: 531
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 17 -)
4 (- 27 -) (D 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 17 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 27 -) (V 16 -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 15 -)
Agent performance: 540
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 17 -)
4 (- 27 -) (L 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 17 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 27 -) (V 15 -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 26 -) (V 15 -)
Agent performance: 547
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 17 -)
4 (- 25 -) (L 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 17 -)
4 (? ? ?) (? ? ?) (- 25 -) (V 26 -) (- 15 -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 14 -) (V 15 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 554
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 15 -) (L 24 -) (- 26 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 15 -) (V 24 -) (- 26 -) (? ? ?)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 14 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 561
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 7 -) (- 20 1) (- 24 -)
4 (- 14 -) (L 14 -) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 7 -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- 14 -) (V 14 -) (- 24 -) (? ? ?) (? ? ?)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 13 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 568
PERCEPT
0 1
(A G T) (A G T)
3 (- 7 -) (- 20 1)
4 (L 13 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 7 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 13 -) (- 14 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 577
PERCEPT
0 1
(A G T) (A G T)
3 (- 7 -) (- 20 1)
4 (U 12 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 7 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 12 -) (- 14 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 584
PERCEPT
0 1
(A G T) (A G T)
2 (- 22 -) (- 16 -)
3 (U 6 -) (- 20 1)
4 (- 12 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 22 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 6 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (- 12 -) (- 14 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 591
PERCEPT
0 1
(A G T) (A G T)
1 (- 15 -) (- 19 -)
2 (U 21 -) (- 16 -)
3 (- 6 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 15 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 21 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 6 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 598
PERCEPT
0 1
(A G T) (A G T)
0 (- 10 -) (- 18 -)
1 (U 14 -) (- 19 -)
2 (- 21 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 14 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 21 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 605
PERCEPT
0 1
(A G T) (A G T)
0 (U 9 -) (- 18 -)
1 (- 14 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 -) (- 18 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 14 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 614
PERCEPT
0 1
(A G T) (A G T)
0 (R 8 -) (- 18 -)
1 (- 14 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (- 18 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 14 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 621
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 8 -) (R 17 -) (- 22 -)
1 (- 14 -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (V 17 -) (- 22 -) (? ? ?) (? ? ?)
1 (- 14 -) (- 19 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 16 -) (V 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 628
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 17 -) (R 21 -) (- 16 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 17 -) (V 21 -) (- 16 -) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 635
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 21 -) (R 15 -) (- 13 -)
1 (- 15 1) (- 17 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 21 -) (V 15 -) (- 13 -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 11 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 12 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 642
PERCEPT
3 4
(A G T) (A G T)
0 (- 15 -) (R 12 -)
1 (- 17 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 15 -) (V 12 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 11 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 651
PERCEPT
3 4
(A G T) (A G T)
0 (- 15 -) (D 11 -)
1 (- 17 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 15 -) (V 11 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 11 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 658
PERCEPT
3 4
(A G T) (A G T)
0 (- 15 -) (- 11 -)
1 (- 17 -) (D 10 -)
2 (- 22 -) (- 18 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 15 -) (- 11 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 10 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 18 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 665
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 10 -)
2 (- 22 -) (D 17 -)
3 (- 25 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 10 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 17 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 17 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 672
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 17 -)
3 (- 25 -) (D 16 -)
4 (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 17 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 16 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 26 -) (- 15 -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 14 -)
Agent performance: 679
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 16 -)
4 (- 26 -) (D 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 16 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 26 -) (V 14 -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 13 -)
Agent performance: 688
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 16 -)
4 (- 26 -) (L 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 16 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 26 -) (V 13 -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 25 -) (V 13 -)
Agent performance: 695
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 16 -)
4 (- 24 -) (L 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 16 -)
4 (? ? ?) (? ? ?) (- 24 -) (V 25 -) (- 13 -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 12 -) (V 14 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 702
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 14 -) (L 23 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 14 -) (V 23 -) (- 25 -) (? ? ?)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 12 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 709
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 6 -) (- 20 1) (- 24 -)
4 (- 12 -) (L 13 -) (- 23 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 6 -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- 12 -) (V 13 -) (- 23 -) (? ? ?) (? ? ?)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 11 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 716
PERCEPT
0 1
(A G T) (A G T)
3 (- 6 -) (- 20 1)
4 (L 11 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 6 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 11 -) (- 13 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 81>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 725
PERCEPT
0 1
(A G T) (A G T)
3 (- 6 -) (- 20 1)
4 (U 10 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 6 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 10 -) (- 13 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 732
PERCEPT
0 1
(A G T) (A G T)
2 (- 21 -) (- 16 -)
3 (U 5 -) (- 20 1)
4 (- 10 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 21 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 5 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (- 10 -) (- 13 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 739
PERCEPT
0 1
(A G T) (A G T)
1 (- 14 -) (- 19 -)
2 (U 20 -) (- 16 -)
3 (- 5 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 14 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 20 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 746
PERCEPT
0 1
(A G T) (A G T)
0 (- 8 -) (- 17 -)
1 (U 13 -) (- 19 -)
2 (- 20 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 13 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 20 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 753
PERCEPT
0 1
(A G T) (A G T)
0 (U 7 -) (- 17 -)
1 (- 13 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 -) (- 17 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 13 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 86>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 762
PERCEPT
0 1
(A G T) (A G T)
0 (R 6 -) (- 17 -)
1 (- 13 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (- 17 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 13 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 769
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 6 -) (R 16 -) (- 21 -)
1 (- 13 -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (V 16 -) (- 21 -) (? ? ?) (? ? ?)
1 (- 13 -) (- 19 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 15 -) (V 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 776
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 16 -) (R 20 -) (- 15 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 16 -) (V 20 -) (- 15 -) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 783
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 20 -) (R 14 -) (- 11 -)
1 (- 15 1) (- 17 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 20 -) (V 14 -) (- 11 -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 10 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 10 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 790
PERCEPT
3 4
(A G T) (A G T)
0 (- 14 -) (R 10 -)
1 (- 17 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 14 -) (V 10 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 10 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 799
PERCEPT
3 4
(A G T) (A G T)
0 (- 14 -) (D 9 -)
1 (- 17 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 14 -) (V 9 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 10 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 806
PERCEPT
3 4
(A G T) (A G T)
0 (- 14 -) (- 9 -)
1 (- 17 -) (D 9 -)
2 (- 22 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 14 -) (- 9 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 9 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 17 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 813
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 9 -)
2 (- 22 -) (D 16 -)
3 (- 25 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 9 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 16 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 16 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 820
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 16 -)
3 (- 25 -) (D 15 -)
4 (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 16 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 15 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 13 -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 12 -)
Agent performance: 827
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 15 -)
4 (- 25 -) (D 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 15 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 12 -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 11 -)
Agent performance: 836
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 15 -)
4 (- 25 -) (L 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 15 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 11 -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 24 -) (V 11 -)
Agent performance: 843
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 15 -)
4 (- 23 -) (L 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 15 -)
4 (? ? ?) (? ? ?) (- 23 -) (V 24 -) (- 11 -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 10 -) (V 13 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 850
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 13 -) (L 22 -) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 13 -) (V 22 -) (- 24 -) (? ? ?)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 10 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 857
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 5 -) (- 20 1) (- 24 -)
4 (- 10 -) (L 12 -) (- 22 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- 10 -) (V 12 -) (- 22 -) (? ? ?) (? ? ?)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 9 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 864
PERCEPT
0 1
(A G T) (A G T)
3 (- 5 -) (- 20 1)
4 (L 9 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 9 -) (- 12 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 873
PERCEPT
0 1
(A G T) (A G T)
3 (- 5 -) (- 20 1)
4 (U 8 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 5 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 8 -) (- 12 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 880
PERCEPT
0 1
(A G T) (A G T)
2 (- 20 -) (- 16 -)
3 (U 4 -) (- 20 1)
4 (- 8 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 20 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 4 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (- 8 -) (- 12 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 887
PERCEPT
0 1
(A G T) (A G T)
1 (- 13 -) (- 19 -)
2 (U 19 -) (- 16 -)
3 (- 4 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 13 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 19 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 894
PERCEPT
0 1
(A G T) (A G T)
0 (- 6 -) (- 16 -)
1 (U 12 -) (- 19 -)
2 (- 19 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 12 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 19 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 901
PERCEPT
0 1
(A G T) (A G T)
0 (U 5 -) (- 16 -)
1 (- 12 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 12 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 106>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 910
PERCEPT
0 1
(A G T) (A G T)
0 (R 4 -) (- 16 -)
1 (- 12 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 12 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 917
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 4 -) (R 15 -) (- 20 -)
1 (- 12 -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (V 15 -) (- 20 -) (? ? ?) (? ? ?)
1 (- 12 -) (- 19 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 14 -) (V 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 924
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 15 -) (R 19 -) (- 14 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 15 -) (V 19 -) (- 14 -) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 931
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 19 -) (R 13 -) (- 9 -)
1 (- 15 1) (- 17 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 19 -) (V 13 -) (- 9 -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 9 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 8 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 938
PERCEPT
3 4
(A G T) (A G T)
0 (- 13 -) (R 8 -)
1 (- 17 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 13 -) (V 8 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 9 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 947
PERCEPT
3 4
(A G T) (A G T)
0 (- 13 -) (D 7 -)
1 (- 17 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 13 -) (V 7 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 9 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 954
PERCEPT
3 4
(A G T) (A G T)
0 (- 13 -) (- 7 -)
1 (- 17 -) (D 8 -)
2 (- 22 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 13 -) (- 7 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 8 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 16 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 961
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 8 -)
2 (- 22 -) (D 15 -)
3 (- 25 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 8 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 15 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 15 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 968
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 15 -)
3 (- 25 -) (D 14 -)
4 (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 15 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 14 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 24 -) (- 11 -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 10 -)
Agent performance: 975
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 14 -)
4 (- 24 -) (D 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 14 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 24 -) (V 10 -)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 9 -)
Agent performance: 984
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 14 -)
4 (- 24 -) (L 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 14 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 24 -) (V 9 -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 23 -) (V 9 -)
Agent performance: 991
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 14 -)
4 (- 22 -) (L 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 14 -)
4 (? ? ?) (? ? ?) (- 22 -) (V 23 -) (- 9 -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 8 -) (V 12 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 998
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 12 -) (L 21 -) (- 23 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 12 -) (V 21 -) (- 23 -) (? ? ?)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 8 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1005
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 4 -) (- 20 1) (- 24 -)
4 (- 8 -) (L 11 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- 8 -) (V 11 -) (- 21 -) (? ? ?) (? ? ?)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 7 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1012
PERCEPT
0 1
(A G T) (A G T)
3 (- 4 -) (- 20 1)
4 (L 7 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 7 -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 121>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1021
PERCEPT
0 1
(A G T) (A G T)
3 (- 4 -) (- 20 1)
4 (U 6 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 4 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 6 -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1028
PERCEPT
0 1
(A G T) (A G T)
2 (- 19 -) (- 16 -)
3 (U 3 -) (- 20 1)
4 (- 6 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 19 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 3 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (- 6 -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1035
PERCEPT
0 1
(A G T) (A G T)
1 (- 12 -) (- 19 -)
2 (U 18 -) (- 16 -)
3 (- 3 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 12 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 18 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1042
PERCEPT
0 1
(A G T) (A G T)
0 (- 4 -) (- 15 -)
1 (U 11 -) (- 19 -)
2 (- 18 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 11 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 18 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1049
PERCEPT
0 1
(A G T) (A G T)
0 (U 3 -) (- 15 -)
1 (- 11 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (- 15 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 11 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1058
PERCEPT
0 1
(A G T) (A G T)
0 (R 2 -) (- 15 -)
1 (- 11 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 15 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 11 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1065
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- 2 -) (R 14 -) (- 19 -)
1 (- 11 -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (V 14 -) (- 19 -) (? ? ?) (? ? ?)
1 (- 11 -) (- 19 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 13 -) (V 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1072
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 14 -) (R 18 -) (- 13 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 14 -) (V 18 -) (- 13 -) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1079
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 18 -) (R 12 -) (- 7 -)
1 (- 15 1) (- 17 -) (- 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 18 -) (V 12 -) (- 7 -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 8 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 6 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1086
PERCEPT
3 4
(A G T) (A G T)
0 (- 12 -) (R 6 -)
1 (- 17 -) (- 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 12 -) (V 6 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 8 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1095
PERCEPT
3 4
(A G T) (A G T)
0 (- 12 -) (D 5 -)
1 (- 17 -) (- 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 12 -) (V 5 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 8 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1102
PERCEPT
3 4
(A G T) (A G T)
0 (- 12 -) (- 5 -)
1 (- 17 -) (D 7 -)
2 (- 22 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 12 -) (- 5 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 7 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 15 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1109
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 7 -)
2 (- 22 -) (D 14 -)
3 (- 25 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 7 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 14 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 14 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1116
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 14 -)
3 (- 25 -) (D 13 -)
4 (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 14 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 13 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 23 -) (- 9 -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 8 -)
Agent performance: 1123
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 13 -)
4 (- 23 -) (D 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 13 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 23 -) (V 8 -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 7 -)
Agent performance: 1132
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 13 -)
4 (- 23 -) (L 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 13 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 23 -) (V 7 -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 22 -) (V 7 -)
Agent performance: 1139
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 13 -)
4 (- 21 -) (L 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 13 -)
4 (? ? ?) (? ? ?) (- 21 -) (V 22 -) (- 7 -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 6 -) (V 11 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1146
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 11 -) (L 20 -) (- 22 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 11 -) (V 20 -) (- 22 -) (? ? ?)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 6 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1153
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 3 -) (- 20 1) (- 24 -)
4 (- 6 -) (L 10 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- 6 -) (V 10 -) (- 20 -) (? ? ?) (? ? ?)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 5 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1160
PERCEPT
0 1
(A G T) (A G T)
3 (- 3 -) (- 20 1)
4 (L 5 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 5 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1169
PERCEPT
0 1
(A G T) (A G T)
3 (- 3 -) (- 20 1)
4 (U 4 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 3 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 4 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1176
PERCEPT
0 1
(A G T) (A G T)
2 (- 18 -) (- 16 -)
3 (U 2 -) (- 20 1)
4 (- 4 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 18 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 2 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (- 4 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1183
PERCEPT
0 1
(A G T) (A G T)
1 (- 11 -) (- 19 -)
2 (U 17 -) (- 16 -)
3 (- 2 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 11 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 17 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 2 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1190
PERCEPT
0 1
(A G T) (A G T)
0 (- 2 -) (- 14 -)
1 (U 10 -) (- 19 -)
2 (- 17 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 10 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 17 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1197
PERCEPT
0 1
(A G T) (A G T)
0 (U 1 -) (- 14 -)
1 (- 10 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 14 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 10 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1206
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 14 -)
1 (- 10 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 14 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 10 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1213
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 13 -) (- 18 -)
1 (- 10 -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 13 -) (- 18 -) (? ? ?) (? ? ?)
1 (- 10 -) (- 19 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 12 -) (V 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1220
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 13 -) (R 17 -) (- 12 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 13 -) (V 17 -) (- 12 -) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1227
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 17 -) (R 11 -) (- 5 -)
1 (- 15 1) (- 17 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 17 -) (V 11 -) (- 5 -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 7 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 4 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1234
PERCEPT
3 4
(A G T) (A G T)
0 (- 11 -) (R 4 -)
1 (- 17 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V 4 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 7 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1243
PERCEPT
3 4
(A G T) (A G T)
0 (- 11 -) (D 3 -)
1 (- 17 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V 3 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 7 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1250
PERCEPT
3 4
(A G T) (A G T)
0 (- 11 -) (- 3 -)
1 (- 17 -) (D 6 -)
2 (- 22 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (- 3 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 6 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 14 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1257
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 6 -)
2 (- 22 -) (D 13 -)
3 (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 6 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 13 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 13 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1264
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 13 -)
3 (- 25 -) (D 12 -)
4 (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 13 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 12 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 7 -)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 6 -)
Agent performance: 1271
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 12 -)
4 (- 22 -) (D 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 12 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 6 -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 5 -)
Agent performance: 1280
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 12 -)
4 (- 22 -) (L 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 12 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 5 -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 21 -) (V 5 -)
Agent performance: 1287
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 12 -)
4 (- 20 -) (L 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 12 -)
4 (? ? ?) (? ? ?) (- 20 -) (V 21 -) (- 5 -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 4 -) (V 10 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1294
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 10 -) (L 19 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 10 -) (V 19 -) (- 21 -) (? ? ?)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 4 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1301
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 2 -) (- 20 1) (- 24 -)
4 (- 4 -) (L 9 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 2 -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- 4 -) (V 9 -) (- 19 -) (? ? ?) (? ? ?)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 3 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1308
PERCEPT
0 1
(A G T) (A G T)
3 (- 2 -) (- 20 1)
4 (L 3 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 2 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 3 -) (- 9 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1317
PERCEPT
0 1
(A G T) (A G T)
3 (- 2 -) (- 20 1)
4 (U 2 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 2 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 2 -) (- 9 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1324
PERCEPT
0 1
(A G T) (A G T)
2 (- 17 -) (- 16 -)
3 (U 1 -) (- 20 1)
4 (- 2 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 17 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (V 1 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (- 2 -) (- 9 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1331
PERCEPT
0 1
(A G T) (A G T)
1 (- 10 -) (- 19 -)
2 (U 16 -) (- 16 -)
3 (- 1 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 10 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 16 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1338
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 13 -)
1 (U 9 -) (- 19 -)
2 (- 16 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 9 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 16 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1335
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 13 -)
1 (- 9 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 13 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 9 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1334
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 13 -)
1 (- 9 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 13 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 9 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1341
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 12 -) (- 17 -)
1 (- 9 -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 12 -) (- 17 -) (? ? ?) (? ? ?)
1 (- 9 -) (- 19 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 11 -) (V 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1348
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 12 -) (R 16 -) (- 11 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 12 -) (V 16 -) (- 11 -) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1355
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 16 -) (R 10 -) (- 3 -)
1 (- 15 1) (- 17 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 16 -) (V 10 -) (- 3 -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 6 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 2 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1362
PERCEPT
3 4
(A G T) (A G T)
0 (- 10 -) (R 2 -)
1 (- 17 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 10 -) (V 2 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 6 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1371
PERCEPT
3 4
(A G T) (A G T)
0 (- 10 -) (D 1 -)
1 (- 17 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 10 -) (V 1 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 6 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1378
PERCEPT
3 4
(A G T) (A G T)
0 (- 10 -) (- 1 -)
1 (- 17 -) (D 5 -)
2 (- 22 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 10 -) (- 1 -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 5 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 13 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1385
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 5 -)
2 (- 22 -) (D 12 -)
3 (- 25 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 5 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 12 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 12 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1392
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 12 -)
3 (- 25 -) (D 11 -)
4 (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 12 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 11 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 21 -) (- 5 -)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 4 -)
Agent performance: 1399
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 11 -)
4 (- 21 -) (D 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 11 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 21 -) (V 4 -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 3 -)
Agent performance: 1408
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 11 -)
4 (- 21 -) (L 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 11 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 21 -) (V 3 -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 20 -) (V 3 -)
Agent performance: 1415
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 11 -)
4 (- 19 -) (L 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 11 -)
4 (? ? ?) (? ? ?) (- 19 -) (V 20 -) (- 3 -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 2 -) (V 9 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1422
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 9 -) (L 18 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 9 -) (V 18 -) (- 20 -) (? ? ?)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 2 -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1429
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 1 -) (- 20 1) (- 24 -)
4 (- 2 -) (L 8 -) (- 18 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- 2 -) (V 8 -) (- 18 -) (? ? ?) (? ? ?)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 1 -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1436
PERCEPT
0 1
(A G T) (A G T)
3 (- 1 -) (- 20 1)
4 (L 1 -) (- 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V 1 -) (- 8 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1445
PERCEPT
0 1
(A G T) (A G T)
3 (- 1 -) (- 20 1)
4 (U - -) (- 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- 1 -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 8 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1452
PERCEPT
0 1
(A G T) (A G T)
2 (- 16 -) (- 16 -)
3 (U - -) (- 20 1)
4 (- - -) (- 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 16 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- 8 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1459
PERCEPT
0 1
(A G T) (A G T)
1 (- 9 -) (- 19 -)
2 (U 15 -) (- 16 -)
3 (- - -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 9 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 15 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 184>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1466
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- 12 -)
1 (U 8 -) (- 19 -)
2 (- 15 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 8 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 15 -) (- 16 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1463
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- 12 -)
1 (- 8 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 12 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1462
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 12 -)
1 (- 8 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 12 -) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 19 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1469
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 11 -) (- 16 -)
1 (- 8 -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 11 -) (- 16 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 19 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 10 -) (V 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1476
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 11 -) (R 15 -) (- 10 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 11 -) (V 15 -) (- 10 -) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1483
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 15 -) (R 9 -) (- 1 -)
1 (- 15 1) (- 17 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 15 -) (V 9 -) (- 1 -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 5 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1490
PERCEPT
3 4
(A G T) (A G T)
0 (- 9 -) (R - -)
1 (- 17 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 9 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 5 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1489
PERCEPT
3 4
(A G T) (A G T)
0 (- 9 -) (D - -)
1 (- 17 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 9 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 5 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1496
PERCEPT
3 4
(A G T) (A G T)
0 (- 9 -) (- - -)
1 (- 17 -) (D 4 -)
2 (- 22 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 9 -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 4 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 12 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1503
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 4 -)
2 (- 22 -) (D 11 -)
3 (- 25 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 4 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 11 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 11 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1510
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 11 -)
3 (- 25 -) (D 10 -)
4 (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 11 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 3 -)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 2 -)
Agent performance: 1517
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 20 -) (D 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (V 2 -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 1 -)
Agent performance: 1526
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 20 -) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (V 1 -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 8 -) (V 18 -) (V 19 -) (V 1 -)
Agent performance: 1533
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 10 -)
4 (- 18 -) (L 19 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (- 18 -) (V 19 -) (- 1 -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 8 -) (V 17 -) (V 19 -) (V 1 -)
Agent performance: 1540
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 8 -) (L 17 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 8 -) (V 17 -) (- 19 -) (? ? ?)
<STEP 199>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 7 -) (V 17 -) (V 19 -) (V 1 -)
Agent performance: 1547
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 20 1) (- 24 -)
4 (- - -) (L 7 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V 7 -) (- 17 -) (? ? ?) (? ? ?)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 7 -) (V 17 -) (V 19 -) (V 1 -)
Agent performance: 1544
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 20 1)
4 (L - -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 7 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 7 -) (V 17 -) (V 19 -) (V 1 -)
Agent performance: 1543
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 20 1)
4 (U - -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 7 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 7 -) (V 17 -) (V 19 -) (V 1 -)
Agent performance: 1542
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 20 1)
4 (R - -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 7 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 17 -) (V 19 -) (V 1 -)
Agent performance: 1549
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 20 1) (- 24 -)
4 (- - -) (R 6 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V 6 -) (- 17 -) (? ? ?) (? ? ?)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 16 -) (V 19 -) (V 1 -)
Agent performance: 1556
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 6 -) (R 16 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 6 -) (V 16 -) (- 19 -) (? ? ?)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 16 -) (V 18 -) (V 1 -)
Agent performance: 1563
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 10 -)
4 (- 16 -) (R 18 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (- 16 -) (V 18 -) (- 1 -)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 16 -) (V 18 -) (V - -)
Agent performance: 1570
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 18 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 18 -) (V - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 16 -) (V 18 -) (V - -)
Agent performance: 1569
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 18 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 18 -) (V - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 16 -) (V 18 -) (V - -)
Agent performance: 1568
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 18 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 18 -) (V - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 16 -) (V 17 -) (V - -)
Agent performance: 1575
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 10 -)
4 (- 16 -) (L 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (- 16 -) (V 17 -) (- - -)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 15 -) (V 17 -) (V - -)
Agent performance: 1582
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 6 -) (L 15 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 6 -) (V 15 -) (- 17 -) (? ? ?)
<STEP 211>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 5 -) (V 15 -) (V 17 -) (V - -)
Agent performance: 1589
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 20 1) (- 24 -)
4 (- - -) (L 5 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V 5 -) (- 15 -) (? ? ?) (? ? ?)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 5 -) (V 15 -) (V 17 -) (V - -)
Agent performance: 1586
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 20 1)
4 (L - -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 5 -) (V 15 -) (V 17 -) (V - -)
Agent performance: 1585
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 20 1)
4 (U - -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 5 -) (V 15 -) (V 17 -) (V - -)
Agent performance: 1584
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 20 1)
4 (R - -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 5 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 15 -) (V 17 -) (V - -)
Agent performance: 1591
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 20 1) (- 24 -)
4 (- - -) (R 4 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V 4 -) (- 15 -) (? ? ?) (? ? ?)
<STEP 216>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 14 -) (V 17 -) (V - -)
Agent performance: 1598
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 4 -) (R 14 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 4 -) (V 14 -) (- 17 -) (? ? ?)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 14 -) (V 16 -) (V - -)
Agent performance: 1605
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 10 -)
4 (- 14 -) (R 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (- 14 -) (V 16 -) (- - -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 14 -) (V 16 -) (V - -)
Agent performance: 1602
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 16 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (V - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 14 -) (V 16 -) (V - -)
Agent performance: 1601
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 16 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (V - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 14 -) (V 16 -) (V - -)
Agent performance: 1600
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 16 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (V - -)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 14 -) (V 15 -) (V - -)
Agent performance: 1607
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 10 -)
4 (- 14 -) (L 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (- 14 -) (V 15 -) (- - -)
<STEP 222>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 13 -) (V 15 -) (V - -)
Agent performance: 1614
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 4 -) (L 13 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 4 -) (V 13 -) (- 15 -) (? ? ?)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 3 -) (V 13 -) (V 15 -) (V - -)
Agent performance: 1621
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 20 1) (- 24 -)
4 (- - -) (L 3 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V 3 -) (- 13 -) (? ? ?) (? ? ?)
<STEP 224>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 3 -) (V 13 -) (V 15 -) (V - -)
Agent performance: 1618
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 20 1)
4 (L - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 3 -) (V 13 -) (V 15 -) (V - -)
Agent performance: 1617
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 20 1)
4 (U - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 3 -) (V 13 -) (V 15 -) (V - -)
Agent performance: 1616
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 20 1)
4 (R - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 3 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 227>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 13 -) (V 15 -) (V - -)
Agent performance: 1623
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 20 1) (- 24 -)
4 (- - -) (R 2 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V 2 -) (- 13 -) (? ? ?) (? ? ?)
<STEP 228>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 12 -) (V 15 -) (V - -)
Agent performance: 1630
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 2 -) (R 12 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 2 -) (V 12 -) (- 15 -) (? ? ?)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 12 -) (V 14 -) (V - -)
Agent performance: 1637
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 10 -)
4 (- 12 -) (R 14 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (- 12 -) (V 14 -) (- - -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 12 -) (V 14 -) (V - -)
Agent performance: 1634
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 14 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 14 -) (V - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 12 -) (V 14 -) (V - -)
Agent performance: 1633
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 14 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 14 -) (V - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 12 -) (V 14 -) (V - -)
Agent performance: 1632
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 14 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 14 -) (V - -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 12 -) (V 13 -) (V - -)
Agent performance: 1639
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 10 -)
4 (- 12 -) (L 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (- 12 -) (V 13 -) (- - -)
<STEP 234>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 11 -) (V 13 -) (V - -)
Agent performance: 1646
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 2 -) (L 11 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- 2 -) (V 11 -) (- 13 -) (? ? ?)
<STEP 235>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 1 -) (V 11 -) (V 13 -) (V - -)
Agent performance: 1653
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 20 1) (- 24 -)
4 (- - -) (L 1 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V 1 -) (- 11 -) (? ? ?) (? ? ?)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 1 -) (V 11 -) (V 13 -) (V - -)
Agent performance: 1650
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 20 1)
4 (L - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 1 -) (V 11 -) (V 13 -) (V - -)
Agent performance: 1649
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 20 1)
4 (U - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 1 -) (V 11 -) (V 13 -) (V - -)
Agent performance: 1648
PERCEPT
0 1
(A G T) (A G T)
3 (- - -) (- 20 1)
4 (R - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (? ? ?) (? ? ?) (? ? ?)
4 (V - -) (- 1 -) (? ? ?) (? ? ?) (? ? ?)
<STEP 239>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 11 -) (V 13 -) (V - -)
Agent performance: 1655
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 20 1) (- 24 -)
4 (- - -) (R - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 11 -) (? ? ?) (? ? ?)
<STEP 240>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 10 -) (V 13 -) (V - -)
Agent performance: 1662
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- - -) (R 10 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- - -) (V 10 -) (- 13 -) (? ? ?)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 10 -) (V 12 -) (V - -)
Agent performance: 1669
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 10 -)
4 (- 10 -) (R 12 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (- 10 -) (V 12 -) (- - -)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 10 -) (V 12 -) (V - -)
Agent performance: 1666
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 12 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 12 -) (V - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 10 -) (V 12 -) (V - -)
Agent performance: 1665
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 12 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 12 -) (V - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 10 -) (V 12 -) (V - -)
Agent performance: 1664
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 10 -)
4 (- 12 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 12 -) (V - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 10 -) (V 11 -) (V - -)
Agent performance: 1671
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 10 -)
4 (- 10 -) (L 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (- 10 -) (V 11 -) (- - -)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1678
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- - -) (L 9 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- - -) (V 9 -) (- 11 -) (? ? ?)
<STEP 247>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1675
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 20 1) (- 24 -)
4 (- - -) (L - -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 9 -) (? ? ?) (? ? ?)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1674
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 20 1) (- 24 -)
4 (- - -) (U - -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 20 1) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 9 -) (? ? ?) (? ? ?)
<STEP 249>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1678
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 15 -) (- 16 -) (- 21 1)
3 (- - -) (U 19 -) (- 24 -)
4 (- - -) (- - -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 15 -) (- 16 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (V 19 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- 9 -) (? ? ?) (? ? ?)
<STEP 250>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1685
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 8 -) (- 19 -) (- 15 1)
2 (- 15 -) (U 15 -) (- 21 1)
3 (- - -) (- 19 -) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 19 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (V 15 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (- 19 -) (- 24 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1694
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -)
1 (- 8 -) (U 18 -) (- 15 1)
2 (- 15 -) (- 15 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (? ? ?) (? ? ?)
1 (- 8 -) (V 18 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (- 15 -) (- 21 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 10 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1701
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U 10 -) (- 15 -)
1 (- 8 -) (- 18 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 10 -) (- 15 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 18 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1710
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 9 -) (- 15 -)
1 (- 8 -) (- 18 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 9 -) (- 15 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 18 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 254>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 9 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1717
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 9 -) (R 14 -) (- 9 -)
1 (- 18 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 9 -) (V 14 -) (- 9 -) (? ? ?)
1 (? ? ?) (- 18 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 255>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1724
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 14 -) (R 8 -) (- - -)
1 (- 15 1) (- 17 -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 14 -) (V 8 -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 4 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1721
PERCEPT
3 4
(A G T) (A G T)
0 (- 8 -) (R - -)
1 (- 17 -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 8 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 4 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1720
PERCEPT
3 4
(A G T) (A G T)
0 (- 8 -) (D - -)
1 (- 17 -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 8 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 4 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 258>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1727
PERCEPT
3 4
(A G T) (A G T)
0 (- 8 -) (- - -)
1 (- 17 -) (D 3 -)
2 (- 22 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 8 -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 3 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 11 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 259>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1734
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 3 -)
2 (- 22 -) (D 10 -)
3 (- 25 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 3 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 10 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1741
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 10 -)
3 (- 25 -) (D 9 -)
4 (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 10 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 9 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (- - -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1738
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 9 -)
4 (- 11 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 9 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1737
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 9 -)
4 (- 11 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 9 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
<STEP 263>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 9 -) (V 10 -) (V - -)
Agent performance: 1744
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 9 -)
4 (- 9 -) (L 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 9 -)
4 (? ? ?) (? ? ?) (- 9 -) (V 10 -) (- - -)
<STEP 264>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1751
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 19 -) (- 24 -) (- 25 -)
4 (- - -) (L 8 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 19 -) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- - -) (V 8 -) (- 10 -) (? ? ?)
<STEP 265>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1748
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 19 -) (- 24 -)
4 (- - -) (L - -) (- 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 19 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 8 -) (? ? ?) (? ? ?)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1747
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 19 -) (- 24 -)
4 (- - -) (U - -) (- 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 19 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 8 -) (? ? ?) (? ? ?)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1754
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 15 -) (- 15 -) (- 21 1)
3 (- - -) (U 18 -) (- 24 -)
4 (- - -) (- - -) (- 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 15 -) (- 15 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (V 18 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- 8 -) (? ? ?) (? ? ?)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1761
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 8 -) (- 18 -) (- 15 1)
2 (- 15 -) (U 14 -) (- 21 1)
3 (- - -) (- 18 -) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 18 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (V 14 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (- 18 -) (- 24 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1768
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -)
1 (- 8 -) (U 17 -) (- 15 1)
2 (- 15 -) (- 14 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (? ? ?) (? ? ?)
1 (- 8 -) (V 17 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (- 14 -) (- 21 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1775
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U 8 -) (- 14 -)
1 (- 8 -) (- 17 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 8 -) (- 14 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 17 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1784
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 7 -) (- 14 -)
1 (- 8 -) (- 17 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 7 -) (- 14 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 17 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 8 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1791
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 7 -) (R 13 -) (- 8 -)
1 (- 17 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 7 -) (V 13 -) (- 8 -) (? ? ?)
1 (? ? ?) (- 17 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1798
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 13 -) (R 7 -) (- - -)
1 (- 15 1) (- 17 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 13 -) (V 7 -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 3 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 274>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1795
PERCEPT
3 4
(A G T) (A G T)
0 (- 7 -) (R - -)
1 (- 17 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 7 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 3 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1794
PERCEPT
3 4
(A G T) (A G T)
0 (- 7 -) (D - -)
1 (- 17 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 7 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 3 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1801
PERCEPT
3 4
(A G T) (A G T)
0 (- 7 -) (- - -)
1 (- 17 -) (D 2 -)
2 (- 22 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 7 -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 10 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1808
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 2 -)
2 (- 22 -) (D 9 -)
3 (- 25 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 9 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 9 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 278>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1815
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 9 -)
3 (- 25 -) (D 8 -)
4 (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 9 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 8 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 10 -) (- - -)
<STEP 279>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1812
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 8 -)
4 (- 10 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 8 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 10 -) (V - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1811
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 8 -)
4 (- 10 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 8 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 10 -) (V - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 8 -) (V 9 -) (V - -)
Agent performance: 1818
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 8 -)
4 (- 8 -) (L 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 8 -)
4 (? ? ?) (? ? ?) (- 8 -) (V 9 -) (- - -)
<STEP 282>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1825
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 18 -) (- 24 -) (- 25 -)
4 (- - -) (L 7 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 18 -) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- - -) (V 7 -) (- 9 -) (? ? ?)
<STEP 283>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1822
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 18 -) (- 24 -)
4 (- - -) (L - -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 18 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 7 -) (? ? ?) (? ? ?)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1821
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 18 -) (- 24 -)
4 (- - -) (U - -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 18 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 7 -) (? ? ?) (? ? ?)
<STEP 285>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1828
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 15 -) (- 14 -) (- 21 1)
3 (- - -) (U 17 -) (- 24 -)
4 (- - -) (- - -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 15 -) (- 14 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (V 17 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- 7 -) (? ? ?) (? ? ?)
<STEP 286>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1835
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 8 -) (- 17 -) (- 15 1)
2 (- 15 -) (U 13 -) (- 21 1)
3 (- - -) (- 17 -) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 17 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (V 13 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (- 17 -) (- 24 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1842
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -)
1 (- 8 -) (U 16 -) (- 15 1)
2 (- 15 -) (- 13 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (? ? ?) (? ? ?)
1 (- 8 -) (V 16 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (- 13 -) (- 21 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1849
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U 6 -) (- 13 -)
1 (- 8 -) (- 16 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 6 -) (- 13 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 16 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1858
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 5 -) (- 13 -)
1 (- 8 -) (- 16 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 5 -) (- 13 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 16 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 7 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1865
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 5 -) (R 12 -) (- 7 -)
1 (- 16 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 5 -) (V 12 -) (- 7 -) (? ? ?)
1 (? ? ?) (- 16 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 291>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1872
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 12 -) (R 6 -) (- - -)
1 (- 15 1) (- 17 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 12 -) (V 6 -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1869
PERCEPT
3 4
(A G T) (A G T)
0 (- 6 -) (R - -)
1 (- 17 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 6 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1868
PERCEPT
3 4
(A G T) (A G T)
0 (- 6 -) (D - -)
1 (- 17 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 6 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 2 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 294>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1875
PERCEPT
3 4
(A G T) (A G T)
0 (- 6 -) (- - -)
1 (- 17 -) (D 1 -)
2 (- 22 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 6 -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 9 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 295>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1882
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- 1 -)
2 (- 22 -) (D 8 -)
3 (- 25 -) (- 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 8 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 8 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 296>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1889
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 8 -)
3 (- 25 -) (D 7 -)
4 (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 8 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 7 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 9 -) (- - -)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1886
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 7 -)
4 (- 9 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 7 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 9 -) (V - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1885
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 7 -)
4 (- 9 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 7 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 9 -) (V - -)
<STEP 299>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 7 -) (V 8 -) (V - -)
Agent performance: 1892
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 7 -)
4 (- 7 -) (L 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 7 -)
4 (? ? ?) (? ? ?) (- 7 -) (V 8 -) (- - -)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1899
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 17 -) (- 24 -) (- 25 -)
4 (- - -) (L 6 -) (- 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 17 -) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- - -) (V 6 -) (- 8 -) (? ? ?)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1896
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 17 -) (- 24 -)
4 (- - -) (L - -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 6 -) (? ? ?) (? ? ?)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1895
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 17 -) (- 24 -)
4 (- - -) (U - -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 17 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 6 -) (? ? ?) (? ? ?)
<STEP 303>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1902
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 15 -) (- 13 -) (- 21 1)
3 (- - -) (U 16 -) (- 24 -)
4 (- - -) (- - -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 15 -) (- 13 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (V 16 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- 6 -) (? ? ?) (? ? ?)
<STEP 304>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1909
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 8 -) (- 16 -) (- 15 1)
2 (- 15 -) (U 12 -) (- 21 1)
3 (- - -) (- 16 -) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 16 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (V 12 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (- 16 -) (- 24 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1916
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -)
1 (- 8 -) (U 15 -) (- 15 1)
2 (- 15 -) (- 12 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (? ? ?) (? ? ?)
1 (- 8 -) (V 15 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (- 12 -) (- 21 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 306>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1923
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U 4 -) (- 12 -)
1 (- 8 -) (- 15 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 4 -) (- 12 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 15 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1932
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 3 -) (- 12 -)
1 (- 8 -) (- 15 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 3 -) (- 12 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 15 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 308>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 6 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1939
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 3 -) (R 11 -) (- 6 -)
1 (- 15 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 3 -) (V 11 -) (- 6 -) (? ? ?)
1 (? ? ?) (- 15 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 309>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1946
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 11 -) (R 5 -) (- - -)
1 (- 15 1) (- 17 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 11 -) (V 5 -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1943
PERCEPT
3 4
(A G T) (A G T)
0 (- 5 -) (R - -)
1 (- 17 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1942
PERCEPT
3 4
(A G T) (A G T)
0 (- 5 -) (D - -)
1 (- 17 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 1 -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1949
PERCEPT
3 4
(A G T) (A G T)
0 (- 5 -) (- - -)
1 (- 17 -) (D - -)
2 (- 22 -) (- 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 5 -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 8 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 313>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1956
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 7 -)
3 (- 25 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (V 7 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 7 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 314>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1963
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- 7 -)
3 (- 25 -) (D 6 -)
4 (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 22 -) (- 7 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (V 6 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 8 -) (- - -)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1960
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 6 -)
4 (- 8 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 6 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 8 -) (V - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1959
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- 6 -)
4 (- 8 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 25 -) (- 6 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 8 -) (V - -)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 6 -) (V 7 -) (V - -)
Agent performance: 1966
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- 6 -)
4 (- 6 -) (L 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 6 -) (V 7 -) (- - -)
<STEP 318>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1973
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 16 -) (- 24 -) (- 25 -)
4 (- - -) (L 5 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 16 -) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (- - -) (V 5 -) (- 7 -) (? ? ?)
<STEP 319>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1970
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 16 -) (- 24 -)
4 (- - -) (L - -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 16 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 5 -) (? ? ?) (? ? ?)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1969
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 16 -) (- 24 -)
4 (- - -) (U - -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 16 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 5 -) (? ? ?) (? ? ?)
<STEP 321>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1976
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 15 -) (- 12 -) (- 21 1)
3 (- - -) (U 15 -) (- 24 -)
4 (- - -) (- - -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 15 -) (- 12 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (V 15 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- 5 -) (? ? ?) (? ? ?)
<STEP 322>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1983
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 8 -) (- 15 -) (- 15 1)
2 (- 15 -) (U 11 -) (- 21 1)
3 (- - -) (- 15 -) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 15 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (V 11 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (- 15 -) (- 24 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 323>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1990
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -)
1 (- 8 -) (U 14 -) (- 15 1)
2 (- 15 -) (- 11 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (? ? ?) (? ? ?)
1 (- 8 -) (V 14 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (- 11 -) (- 21 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 324>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1997
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U 2 -) (- 11 -)
1 (- 8 -) (- 14 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 2 -) (- 11 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 14 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2006
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 11 -)
1 (- 8 -) (- 14 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 1 -) (- 11 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 14 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 326>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 10 -) (V 5 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2013
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 -) (R 10 -) (- 5 -)
1 (- 14 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 -) (V 10 -) (- 5 -) (? ? ?)
1 (? ? ?) (- 14 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 327>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 10 -) (V 4 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2020
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 10 -) (R 4 -) (- - -)
1 (- 15 1) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 10 -) (V 4 -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 328>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 10 -) (V 4 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2017
PERCEPT
3 4
(A G T) (A G T)
0 (- 4 -) (R - -)
1 (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 10 -) (V 4 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2016
PERCEPT
3 4
(A G T) (A G T)
0 (- 4 -) (D - -)
1 (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 10 -) (V 4 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2015
PERCEPT
3 4
(A G T) (A G T)
0 (- 4 -) (L - -)
1 (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 331>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 10 -) (V 3 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2022
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 10 -) (L 3 -) (- - -)
1 (- 15 1) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 10 -) (V 3 -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 332>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 9 -) (V 3 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2029
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- 1 -) (L 9 -) (- 3 -)
1 (- 14 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- 1 -) (V 9 -) (- 3 -) (? ? ?)
1 (? ? ?) (- 14 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 333>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 9 -) (V 3 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2036
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- 9 -)
1 (- 8 -) (- 14 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 9 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 14 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 334>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 9 -) (V 3 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2035
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- 9 -)
1 (- 8 -) (- 14 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 9 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 14 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 335>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 9 -) (V 3 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2034
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 9 -)
1 (- 8 -) (- 14 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 9 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 14 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 336>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 3 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2041
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 8 -) (- 3 -)
1 (- 14 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V 8 -) (- 3 -) (? ? ?)
1 (? ? ?) (- 14 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 337>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2048
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 8 -) (R 2 -) (- - -)
1 (- 15 1) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 8 -) (V 2 -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 338>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2045
PERCEPT
3 4
(A G T) (A G T)
0 (- 2 -) (R - -)
1 (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 339>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2044
PERCEPT
3 4
(A G T) (A G T)
0 (- 2 -) (D - -)
1 (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 340>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2043
PERCEPT
3 4
(A G T) (A G T)
0 (- 2 -) (L - -)
1 (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 341>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 1 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2050
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 8 -) (L 1 -) (- - -)
1 (- 15 1) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 8 -) (V 1 -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 342>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2057
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (L 7 -) (- 1 -)
1 (- 14 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V 7 -) (- 1 -) (? ? ?)
1 (? ? ?) (- 14 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 343>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2054
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (L - -) (- 7 -)
1 (- 8 -) (- 14 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 7 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 14 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 344>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2053
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- 7 -)
1 (- 8 -) (- 14 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 7 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 14 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 345>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2052
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 7 -)
1 (- 8 -) (- 14 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 7 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 14 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 346>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V 1 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2059
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 6 -) (- 1 -)
1 (- 14 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V 6 -) (- 1 -) (? ? ?)
1 (? ? ?) (- 14 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 347>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2066
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 6 -) (R - -) (- - -)
1 (- 15 1) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 6 -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 348>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2065
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 6 -) (D - -) (- - -)
1 (- 15 1) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 6 -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 17 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 349>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2074
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 6 -) (- - -) (- - -)
1 (- 15 1) (D 16 -) (- - -)
2 (- 21 1) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 6 -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (V 16 -) (- - -)
2 (? ? ?) (? ? ?) (- 21 1) (- 22 -) (- 7 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 350>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2083
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 16 -) (- - -)
2 (- 21 1) (D 21 -) (- 7 -)
3 (- 24 -) (- 25 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 15 1) (- 16 -) (- - -)
2 (? ? ?) (? ? ?) (- 21 1) (V 21 -) (- 7 -)
3 (? ? ?) (? ? ?) (- 24 -) (- 25 -) (- 6 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 351>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2092
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 21 1) (- 21 -) (- 7 -)
3 (- 24 -) (D 24 -) (- 6 -)
4 (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- 21 1) (- 21 -) (- 7 -)
3 (? ? ?) (? ? ?) (- 24 -) (V 24 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 5 -) (- 7 -) (- - -)
<STEP 352>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 6 -) (V - -)
Agent performance: 2099
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 24 -) (- 6 -)
4 (- 5 -) (D 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 24 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 5 -) (V 6 -) (- - -)
<STEP 353>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 5 -) (V - -)
Agent performance: 2108
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 24 -) (- 6 -)
4 (- 5 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 24 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 5 -) (V 5 -) (- - -)
<STEP 354>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2115
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 15 -) (- 24 -) (- 24 -)
4 (- - -) (L 4 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 15 -) (- 24 -) (- 24 -) (? ? ?)
4 (? ? ?) (- - -) (V 4 -) (- 5 -) (? ? ?)
<STEP 355>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2112
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 15 -) (- 24 -)
4 (- - -) (L - -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 15 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 4 -) (? ? ?) (? ? ?)
<STEP 356>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2111
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 15 -) (- 24 -)
4 (- - -) (U - -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 15 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 4 -) (? ? ?) (? ? ?)
<STEP 357>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2118
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 15 -) (- 11 -) (- 21 1)
3 (- - -) (U 14 -) (- 24 -)
4 (- - -) (- - -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 15 -) (- 11 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (V 14 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- 4 -) (? ? ?) (? ? ?)
<STEP 358>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2125
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 8 -) (- 14 -) (- 15 1)
2 (- 15 -) (U 10 -) (- 21 1)
3 (- - -) (- 14 -) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 14 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (V 10 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (- 14 -) (- 24 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 359>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2132
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -)
1 (- 8 -) (U 13 -) (- 15 1)
2 (- 15 -) (- 10 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (? ? ?) (? ? ?)
1 (- 8 -) (V 13 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (- 10 -) (- 21 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 360>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2129
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- 6 -)
1 (- 8 -) (- 13 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 6 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 13 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 361>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2128
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 6 -)
1 (- 8 -) (- 13 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 6 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 13 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 362>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2135
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 5 -) (- - -)
1 (- 13 -) (- 15 1) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V 5 -) (- - -) (? ? ?)
1 (? ? ?) (- 13 -) (- 15 1) (- 16 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 363>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2132
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 5 -) (R - -) (- - -)
1 (- 15 1) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 5 -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 16 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 364>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2131
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 5 -) (D - -) (- - -)
1 (- 15 1) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 5 -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 16 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 365>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 21 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2138
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 5 -) (- - -) (- - -)
1 (- 15 1) (D 15 -) (- - -)
2 (- 21 1) (- 21 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 5 -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (V 15 -) (- - -)
2 (? ? ?) (? ? ?) (- 21 1) (- 21 -) (- 7 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 366>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 24 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2145
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 15 -) (- - -)
2 (- 21 1) (D 20 -) (- 7 -)
3 (- 24 -) (- 24 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 15 1) (- 15 -) (- - -)
2 (? ? ?) (? ? ?) (- 21 1) (V 20 -) (- 7 -)
3 (? ? ?) (? ? ?) (- 24 -) (- 24 -) (- 6 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 367>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2152
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 21 1) (- 20 -) (- 7 -)
3 (- 24 -) (D 23 -) (- 6 -)
4 (- 4 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- 21 1) (- 20 -) (- 7 -)
3 (? ? ?) (? ? ?) (- 24 -) (V 23 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 4 -) (- 5 -) (- - -)
<STEP 368>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 4 -) (V - -)
Agent performance: 2159
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 23 -) (- 6 -)
4 (- 4 -) (D 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 23 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 4 -) (V 4 -) (- - -)
<STEP 369>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 4 -) (V 3 -) (V - -)
Agent performance: 2168
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 23 -) (- 6 -)
4 (- 4 -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 23 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 4 -) (V 3 -) (- - -)
<STEP 370>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2175
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 14 -) (- 24 -) (- 23 -)
4 (- - -) (L 3 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 14 -) (- 24 -) (- 23 -) (? ? ?)
4 (? ? ?) (- - -) (V 3 -) (- 3 -) (? ? ?)
<STEP 371>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2172
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 14 -) (- 24 -)
4 (- - -) (L - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 14 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 3 -) (? ? ?) (? ? ?)
<STEP 372>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 14 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2171
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 14 -) (- 24 -)
4 (- - -) (U - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 14 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 3 -) (? ? ?) (? ? ?)
<STEP 373>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2178
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 15 -) (- 10 -) (- 21 1)
3 (- - -) (U 13 -) (- 24 -)
4 (- - -) (- - -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 15 -) (- 10 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (V 13 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- 3 -) (? ? ?) (? ? ?)
<STEP 374>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2185
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 8 -) (- 13 -) (- 15 1)
2 (- 15 -) (U 9 -) (- 21 1)
3 (- - -) (- 13 -) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 13 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (V 9 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (- 13 -) (- 24 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 375>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2192
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -)
1 (- 8 -) (U 12 -) (- 15 1)
2 (- 15 -) (- 9 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (? ? ?) (? ? ?)
1 (- 8 -) (V 12 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (- 9 -) (- 21 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 376>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2189
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- 5 -)
1 (- 8 -) (- 12 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 5 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 12 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 377>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2188
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 5 -)
1 (- 8 -) (- 12 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 5 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 12 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 378>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2195
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 4 -) (- - -)
1 (- 12 -) (- 15 1) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V 4 -) (- - -) (? ? ?)
1 (? ? ?) (- 12 -) (- 15 1) (- 15 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 379>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2192
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 4 -) (R - -) (- - -)
1 (- 15 1) (- 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 4 -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 15 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 380>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2191
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 4 -) (D - -) (- - -)
1 (- 15 1) (- 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 4 -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 15 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 381>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 20 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2198
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 4 -) (- - -) (- - -)
1 (- 15 1) (D 14 -) (- - -)
2 (- 21 1) (- 20 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 4 -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (V 14 -) (- - -)
2 (? ? ?) (? ? ?) (- 21 1) (- 20 -) (- 7 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 382>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 23 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2205
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 14 -) (- - -)
2 (- 21 1) (D 19 -) (- 7 -)
3 (- 24 -) (- 23 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 15 1) (- 14 -) (- - -)
2 (? ? ?) (? ? ?) (- 21 1) (V 19 -) (- 7 -)
3 (? ? ?) (? ? ?) (- 24 -) (- 23 -) (- 6 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 383>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2212
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 21 1) (- 19 -) (- 7 -)
3 (- 24 -) (D 22 -) (- 6 -)
4 (- 3 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- 21 1) (- 19 -) (- 7 -)
3 (? ? ?) (? ? ?) (- 24 -) (V 22 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 3 -) (- 3 -) (- - -)
<STEP 384>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 2 -) (V - -)
Agent performance: 2219
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 22 -) (- 6 -)
4 (- 3 -) (D 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 22 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 3 -) (V 2 -) (- - -)
<STEP 385>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 3 -) (V 1 -) (V - -)
Agent performance: 2228
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 22 -) (- 6 -)
4 (- 3 -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 22 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 3 -) (V 1 -) (- - -)
<STEP 386>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2235
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 13 -) (- 24 -) (- 22 -)
4 (- - -) (L 2 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 13 -) (- 24 -) (- 22 -) (? ? ?)
4 (? ? ?) (- - -) (V 2 -) (- 1 -) (? ? ?)
<STEP 387>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2232
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 13 -) (- 24 -)
4 (- - -) (L - -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 13 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 2 -) (? ? ?) (? ? ?)
<STEP 388>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 13 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2231
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 13 -) (- 24 -)
4 (- - -) (U - -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 13 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 2 -) (? ? ?) (? ? ?)
<STEP 389>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2238
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 15 -) (- 9 -) (- 21 1)
3 (- - -) (U 12 -) (- 24 -)
4 (- - -) (- - -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 15 -) (- 9 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (V 12 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- 2 -) (? ? ?) (? ? ?)
<STEP 390>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2245
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 8 -) (- 12 -) (- 15 1)
2 (- 15 -) (U 8 -) (- 21 1)
3 (- - -) (- 12 -) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 12 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (V 8 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (- 12 -) (- 24 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 391>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2252
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -)
1 (- 8 -) (U 11 -) (- 15 1)
2 (- 15 -) (- 8 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (? ? ?) (? ? ?)
1 (- 8 -) (V 11 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (- 8 -) (- 21 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 392>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2249
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- 4 -)
1 (- 8 -) (- 11 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 4 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 11 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 393>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2248
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 4 -)
1 (- 8 -) (- 11 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 4 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 11 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 394>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2255
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 3 -) (- - -)
1 (- 11 -) (- 15 1) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V 3 -) (- - -) (? ? ?)
1 (? ? ?) (- 11 -) (- 15 1) (- 14 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 395>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2252
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 3 -) (R - -) (- - -)
1 (- 15 1) (- 14 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 3 -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 14 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 396>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2251
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 3 -) (D - -) (- - -)
1 (- 15 1) (- 14 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 3 -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 14 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 397>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 19 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2258
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 3 -) (- - -) (- - -)
1 (- 15 1) (D 13 -) (- - -)
2 (- 21 1) (- 19 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 3 -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (V 13 -) (- - -)
2 (? ? ?) (? ? ?) (- 21 1) (- 19 -) (- 7 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 398>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 22 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2265
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 13 -) (- - -)
2 (- 21 1) (D 18 -) (- 7 -)
3 (- 24 -) (- 22 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 15 1) (- 13 -) (- - -)
2 (? ? ?) (? ? ?) (- 21 1) (V 18 -) (- 7 -)
3 (? ? ?) (? ? ?) (- 24 -) (- 22 -) (- 6 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 399>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2272
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 21 1) (- 18 -) (- 7 -)
3 (- 24 -) (D 21 -) (- 6 -)
4 (- 2 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- 21 1) (- 18 -) (- 7 -)
3 (? ? ?) (? ? ?) (- 24 -) (V 21 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 2 -) (- 1 -) (- - -)
<STEP 400>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V - -) (V - -)
Agent performance: 2279
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 21 -) (- 6 -)
4 (- 2 -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 21 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 2 -) (V - -) (- - -)
<STEP 401>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 2 -) (V - -) (V - -)
Agent performance: 2278
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 21 -) (- 6 -)
4 (- 2 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 21 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 2 -) (V - -) (- - -)
<STEP 402>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2285
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 12 -) (- 24 -) (- 21 -)
4 (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 12 -) (- 24 -) (- 21 -) (? ? ?)
4 (? ? ?) (- - -) (V 1 -) (- - -) (? ? ?)
<STEP 403>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2282
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 12 -) (- 24 -)
4 (- - -) (L - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 12 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 1 -) (? ? ?) (? ? ?)
<STEP 404>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 12 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2281
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- - -) (- 12 -) (- 24 -)
4 (- - -) (U - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 12 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (V - -) (- 1 -) (? ? ?) (? ? ?)
<STEP 405>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2288
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- 15 -) (- 8 -) (- 21 1)
3 (- - -) (U 11 -) (- 24 -)
4 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 15 -) (- 8 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (V 11 -) (- 24 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- 1 -) (? ? ?) (? ? ?)
<STEP 406>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2295
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 8 -) (- 11 -) (- 15 1)
2 (- 15 -) (U 7 -) (- 21 1)
3 (- - -) (- 11 -) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 11 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (V 7 -) (- 21 1) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (- 24 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 407>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2302
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 3 -)
1 (- 8 -) (U 10 -) (- 15 1)
2 (- 15 -) (- 7 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 3 -) (? ? ?) (? ? ?)
1 (- 8 -) (V 10 -) (- 15 1) (? ? ?) (? ? ?)
2 (- 15 -) (- 7 -) (- 21 1) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 408>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2299
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- 3 -)
1 (- 8 -) (- 10 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 3 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 10 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 409>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2298
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 3 -)
1 (- 8 -) (- 10 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 3 -) (? ? ?) (? ? ?)
1 (- 8 -) (- 10 -) (- 15 1) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 410>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2305
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 2 -) (- - -)
1 (- 10 -) (- 15 1) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V 2 -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 15 1) (- 13 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 411>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2302
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 2 -) (R - -) (- - -)
1 (- 15 1) (- 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 2 -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 13 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 412>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2301
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 2 -) (D - -) (- - -)
1 (- 15 1) (- 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 2 -) (V - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (- 13 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 413>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 18 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2308
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- 2 -) (- - -) (- - -)
1 (- 15 1) (D 12 -) (- - -)
2 (- 21 1) (- 18 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- 2 -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- 15 1) (V 12 -) (- - -)
2 (? ? ?) (? ? ?) (- 21 1) (- 18 -) (- 7 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 414>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 21 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2315
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 12 -) (- - -)
2 (- 21 1) (D 17 -) (- 7 -)
3 (- 24 -) (- 21 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- 15 1) (- 12 -) (- - -)
2 (? ? ?) (? ? ?) (- 21 1) (V 17 -) (- 7 -)
3 (? ? ?) (? ? ?) (- 24 -) (- 21 -) (- 6 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 415>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2322
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- 21 1) (- 17 -) (- 7 -)
3 (- 24 -) (D 20 -) (- 6 -)
4 (- 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- 21 1) (- 17 -) (- 7 -)
3 (? ? ?) (? ? ?) (- 24 -) (V 20 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 1 -) (- - -) (- - -)
<STEP 416>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2319
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 20 -) (- 6 -)
4 (- 1 -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 20 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
<STEP 417>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2318
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 20 -) (- 6 -)
4 (- 1 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 24 -) (- 20 -) (- 6 -)
4 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
<STEP 418>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2325
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 24 -) (- 20 -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 24 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 419>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (- 24 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2324
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 24 -) (- 20 -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 24 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 420>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2333
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 21 1) (- 17 -)
3 (- 11 -) (U 23 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 21 1) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 23 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 421>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2335
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 15 1) (- 12 -)
2 (- 7 -) (U 20 -) (- 17 -)
3 (- 11 -) (- 23 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 15 1) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 20 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 23 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 422>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2339
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- 2 -) (- - -)
1 (- 10 -) (U 14 -) (- 12 -)
2 (- 7 -) (- 20 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- 2 -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 14 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 20 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 423>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2346
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (U 1 -) (- - -)
1 (- 10 -) (- 14 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V 1 -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 14 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 424>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2355
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- 10 -) (- 14 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 14 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 425>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2354
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- 10 -) (- 14 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 14 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 426>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 13 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2361
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (D 13 -) (- 12 -)
2 (- 7 -) (- 20 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 13 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 20 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 427>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 13 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 19 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2368
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 13 -) (- 12 -)
2 (- 7 -) (D 19 -) (- 17 -)
3 (- 11 -) (- 23 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 13 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 19 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 23 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 428>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 13 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 19 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 22 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2375
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 19 -) (- 17 -)
3 (- 11 -) (D 22 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 19 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 22 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 429>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 13 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 19 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 22 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2372
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 22 -) (- 20 -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 22 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 430>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 13 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 19 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 22 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2371
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 22 -) (- 20 -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 22 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 431>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 13 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 19 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 22 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2370
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 22 -) (- 20 -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 22 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 432>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 13 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 19 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 21 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2377
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 19 -) (- 17 -)
3 (- 11 -) (U 21 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 19 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 21 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 433>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 13 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 18 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 21 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2384
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 13 -) (- 12 -)
2 (- 7 -) (U 18 -) (- 17 -)
3 (- 11 -) (- 21 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 13 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 18 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 21 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 434>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 12 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 18 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 21 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2391
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (U 12 -) (- 12 -)
2 (- 7 -) (- 18 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 12 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 18 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 435>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 12 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 18 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 21 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2388
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- 10 -) (- 12 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 12 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 436>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 12 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 18 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 21 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2387
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- 10 -) (- 12 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 12 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 437>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 12 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 18 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 21 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2386
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- 10 -) (- 12 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 12 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 438>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 11 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 18 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 21 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2393
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (D 11 -) (- 12 -)
2 (- 7 -) (- 18 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 11 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 18 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 439>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 11 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 17 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 21 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2400
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 11 -) (- 12 -)
2 (- 7 -) (D 17 -) (- 17 -)
3 (- 11 -) (- 21 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 11 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 17 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 21 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 440>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 11 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 17 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 20 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2407
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 17 -) (- 17 -)
3 (- 11 -) (D 20 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 17 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 20 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 441>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 11 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 17 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 20 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2404
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 20 -) (- 20 -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 20 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 442>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 11 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 17 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 20 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2403
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 20 -) (- 20 -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 20 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 443>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 11 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 17 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 20 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2402
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 20 -) (- 20 -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 20 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 444>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 11 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 17 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 19 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2409
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 17 -) (- 17 -)
3 (- 11 -) (U 19 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 17 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 19 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 445>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 11 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 16 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 19 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2416
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 11 -) (- 12 -)
2 (- 7 -) (U 16 -) (- 17 -)
3 (- 11 -) (- 19 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 11 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 16 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 19 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 446>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 10 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 16 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 19 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2423
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (U 10 -) (- 12 -)
2 (- 7 -) (- 16 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 10 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 16 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 447>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 10 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 16 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 19 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2420
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- 10 -) (- 10 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 10 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 448>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 10 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 16 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 19 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2419
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- 10 -) (- 10 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 10 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 449>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 10 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 16 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 19 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2418
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- 10 -) (- 10 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 10 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 450>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 9 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 16 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 19 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2425
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (D 9 -) (- 12 -)
2 (- 7 -) (- 16 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 9 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 16 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 451>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 9 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 15 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 19 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2432
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 9 -) (- 12 -)
2 (- 7 -) (D 15 -) (- 17 -)
3 (- 11 -) (- 19 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 9 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 15 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 19 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 452>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 9 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 15 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 18 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2439
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 15 -) (- 17 -)
3 (- 11 -) (D 18 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 15 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 18 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 453>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 9 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 15 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 18 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2436
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 18 -) (- 20 -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 18 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 454>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 9 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 15 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 18 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2435
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 18 -) (- 20 -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 18 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 455>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 9 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 15 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 18 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2434
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 18 -) (- 20 -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 18 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 456>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 9 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 15 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 17 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2441
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 15 -) (- 17 -)
3 (- 11 -) (U 17 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 15 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 17 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 457>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 9 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 14 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 17 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2448
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 9 -) (- 12 -)
2 (- 7 -) (U 14 -) (- 17 -)
3 (- 11 -) (- 17 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 9 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 14 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 17 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 458>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 8 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 14 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 17 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2455
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (U 8 -) (- 12 -)
2 (- 7 -) (- 14 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 8 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 14 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 459>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 8 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 14 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 17 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2452
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- 10 -) (- 8 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 8 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 460>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 8 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 14 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 17 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2451
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- 10 -) (- 8 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 8 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 461>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 8 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 14 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 17 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2450
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- 10 -) (- 8 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 8 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 462>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 7 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 14 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 17 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2457
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (D 7 -) (- 12 -)
2 (- 7 -) (- 14 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 7 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 14 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 463>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 7 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 13 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 17 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2464
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 7 -) (- 12 -)
2 (- 7 -) (D 13 -) (- 17 -)
3 (- 11 -) (- 17 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 7 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 13 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 17 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 464>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 7 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 13 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 16 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2471
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 13 -) (- 17 -)
3 (- 11 -) (D 16 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 13 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 16 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 465>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 7 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 13 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 16 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2468
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 16 -) (- 20 -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 16 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 466>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 7 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 13 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 16 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2467
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 16 -) (- 20 -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 16 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 467>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 7 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 13 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 16 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2466
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 16 -) (- 20 -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 16 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 468>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 7 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 13 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 15 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2473
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 13 -) (- 17 -)
3 (- 11 -) (U 15 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 13 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 15 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 469>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 7 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 12 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 15 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2480
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 7 -) (- 12 -)
2 (- 7 -) (U 12 -) (- 17 -)
3 (- 11 -) (- 15 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 7 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 12 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 15 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 470>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 6 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 12 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 15 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2487
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (U 6 -) (- 12 -)
2 (- 7 -) (- 12 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 6 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 12 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 471>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 6 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 12 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 15 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2484
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- 10 -) (- 6 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 6 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 472>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 6 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 12 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 15 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2483
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- 10 -) (- 6 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 6 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 473>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 6 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 12 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 15 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2482
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- 10 -) (- 6 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 6 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 474>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 5 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 12 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 15 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2489
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (D 5 -) (- 12 -)
2 (- 7 -) (- 12 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 5 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 12 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 475>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 5 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 11 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 15 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2496
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 5 -) (- 12 -)
2 (- 7 -) (D 11 -) (- 17 -)
3 (- 11 -) (- 15 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 5 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 11 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 15 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 476>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 5 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 11 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 14 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2503
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 11 -) (- 17 -)
3 (- 11 -) (D 14 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 11 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 14 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 477>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 5 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 11 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 14 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2500
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 14 -) (- 20 -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 14 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 478>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 5 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 11 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 14 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2499
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 14 -) (- 20 -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 14 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 479>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 5 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 11 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 14 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2498
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 14 -) (- 20 -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 14 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 480>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 5 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 11 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 13 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2505
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 11 -) (- 17 -)
3 (- 11 -) (U 13 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 11 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 13 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 481>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 5 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 10 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 13 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2512
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 5 -) (- 12 -)
2 (- 7 -) (U 10 -) (- 17 -)
3 (- 11 -) (- 13 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 5 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 10 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 13 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 482>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 4 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 10 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 13 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2519
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (U 4 -) (- 12 -)
2 (- 7 -) (- 10 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 4 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 10 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 483>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 4 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 10 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 13 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2516
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- 10 -) (- 4 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 4 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 484>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 4 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 10 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 13 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2515
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- 10 -) (- 4 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 4 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 485>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 4 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 10 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 13 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2514
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- 10 -) (- 4 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 4 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 486>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 3 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 10 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 13 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2521
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (D 3 -) (- 12 -)
2 (- 7 -) (- 10 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 3 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 10 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 487>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 3 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 9 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 13 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2528
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 3 -) (- 12 -)
2 (- 7 -) (D 9 -) (- 17 -)
3 (- 11 -) (- 13 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 3 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 9 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 13 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 488>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 3 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 9 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 12 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2535
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 9 -) (- 17 -)
3 (- 11 -) (D 12 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 9 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 12 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 489>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 3 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 9 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 12 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2532
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 12 -) (- 20 -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 12 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 490>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 3 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 9 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 12 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2531
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 12 -) (- 20 -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 12 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 491>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 3 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 9 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 12 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2530
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 12 -) (- 20 -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 12 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 492>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 3 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 9 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 11 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2537
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 9 -) (- 17 -)
3 (- 11 -) (U 11 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 9 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 11 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 493>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 3 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 8 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 11 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2544
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 3 -) (- 12 -)
2 (- 7 -) (U 8 -) (- 17 -)
3 (- 11 -) (- 11 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 3 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 8 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 11 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 494>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 2 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 8 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 11 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2551
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (U 2 -) (- 12 -)
2 (- 7 -) (- 8 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 2 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 8 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 495>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 2 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 8 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 11 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2548
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -)
1 (- 10 -) (- 2 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 2 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 496>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 2 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 8 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 11 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2547
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- 10 -) (- 2 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 2 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 497>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 2 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 8 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 11 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2546
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- 10 -) (- 2 -) (- 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (- 2 -) (- 12 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 498>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 1 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 8 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 11 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2553
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (D 1 -) (- 12 -)
2 (- 7 -) (- 8 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V 1 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 8 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 499>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 1 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 7 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 11 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2560
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 1 -) (- 12 -)
2 (- 7 -) (D 7 -) (- 17 -)
3 (- 11 -) (- 11 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 1 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 7 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 11 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 500>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 1 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 7 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 10 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2567
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 7 -) (- 17 -)
3 (- 11 -) (D 10 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 7 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 10 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 501>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 1 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 7 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 10 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2564
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 10 -) (- 20 -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 10 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 502>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 1 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 7 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 10 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2563
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 10 -) (- 20 -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 10 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 503>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 1 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 7 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 10 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2562
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 11 -) (- 10 -) (- 20 -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (- 11 -) (- 10 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
<STEP 504>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 1 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 7 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2569
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- 7 -) (- 7 -) (- 17 -)
3 (- 11 -) (U 9 -) (- 20 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- 7 -) (- 7 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (V 9 -) (- 20 -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 505>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 1 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2576
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- 1 -) (- 12 -)
2 (- 7 -) (U 6 -) (- 17 -)
3 (- 11 -) (- 9 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- 1 -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 6 -) (- 17 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 9 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 506>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2583
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (U - -) (- 12 -)
2 (- 7 -) (- 6 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V - -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 6 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 507>
SELECTED ACTION: Turn
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2582
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 10 -) (R - -) (- 12 -)
2 (- 7 -) (- 6 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 10 -) (V - -) (- 12 -) (? ? ?)
2 (? ? ?) (- 7 -) (- 6 -) (- 17 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 508>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2589
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R 11 -) (- - -)
2 (- 6 -) (- 17 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V 11 -) (- - -)
2 (? ? ?) (? ? ?) (- 6 -) (- 17 -) (- 7 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 509>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2586
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 11 -) (R - -)
2 (- 17 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 7 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 510>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 7 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2585
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 11 -) (D - -)
2 (- 17 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 7 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 511>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 6 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 6 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2592
PERCEPT
3 4
(A G T) (A G T)
1 (- 11 -) (- - -)
2 (- 17 -) (D 6 -)
3 (- 20 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 6 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 6 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 512>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 6 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 5 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2599
PERCEPT
3 4
(A G T) (A G T)
2 (- 17 -) (- 6 -)
3 (- 20 -) (D 5 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 6 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (V 5 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 513>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 6 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 5 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2596
PERCEPT
3 4
(A G T) (A G T)
3 (- 20 -) (- 5 -)
4 (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 5 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 514>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 6 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 5 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2595
PERCEPT
3 4
(A G T) (A G T)
3 (- 20 -) (- 5 -)
4 (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 5 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 515>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 6 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 5 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2594
PERCEPT
3 4
(A G T) (A G T)
3 (- 20 -) (- 5 -)
4 (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 5 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 516>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 6 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2601
PERCEPT
3 4
(A G T) (A G T)
2 (- 17 -) (- 6 -)
3 (- 20 -) (U 4 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 6 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (V 4 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 517>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 5 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2608
PERCEPT
3 4
(A G T) (A G T)
1 (- 11 -) (- - -)
2 (- 17 -) (U 5 -)
3 (- 20 -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 5 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 4 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 518>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 5 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2605
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 11 -) (U - -)
2 (- 17 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 5 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 519>
SELECTED ACTION: Turn
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 5 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2604
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 11 -) (R - -)
2 (- 17 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 5 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 520>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 5 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2603
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 11 -) (D - -)
2 (- 17 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 5 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 521>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 4 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2610
PERCEPT
3 4
(A G T) (A G T)
1 (- 11 -) (- - -)
2 (- 17 -) (D 4 -)
3 (- 20 -) (- 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 4 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 4 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 522>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 4 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 3 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2617
PERCEPT
3 4
(A G T) (A G T)
2 (- 17 -) (- 4 -)
3 (- 20 -) (D 3 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 4 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (V 3 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 523>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 4 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 3 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2614
PERCEPT
3 4
(A G T) (A G T)
3 (- 20 -) (- 3 -)
4 (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 3 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 524>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 4 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 3 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2613
PERCEPT
3 4
(A G T) (A G T)
3 (- 20 -) (- 3 -)
4 (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 3 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 525>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 4 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 3 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2612
PERCEPT
3 4
(A G T) (A G T)
3 (- 20 -) (- 3 -)
4 (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 3 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 526>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 4 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2619
PERCEPT
3 4
(A G T) (A G T)
2 (- 17 -) (- 4 -)
3 (- 20 -) (U 2 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 4 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (V 2 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 527>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 3 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2626
PERCEPT
3 4
(A G T) (A G T)
1 (- 11 -) (- - -)
2 (- 17 -) (U 3 -)
3 (- 20 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 3 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 2 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 528>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 3 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2623
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 11 -) (U - -)
2 (- 17 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 3 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 529>
SELECTED ACTION: Turn
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 3 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2622
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 11 -) (R - -)
2 (- 17 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 3 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 530>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 3 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2621
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 11 -) (D - -)
2 (- 17 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 3 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 531>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 2 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2628
PERCEPT
3 4
(A G T) (A G T)
1 (- 11 -) (- - -)
2 (- 17 -) (D 2 -)
3 (- 20 -) (- 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 2 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 2 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 532>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 2 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2635
PERCEPT
3 4
(A G T) (A G T)
2 (- 17 -) (- 2 -)
3 (- 20 -) (D 1 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 2 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (V 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 533>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 2 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2632
PERCEPT
3 4
(A G T) (A G T)
3 (- 20 -) (- 1 -)
4 (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 534>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 2 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2631
PERCEPT
3 4
(A G T) (A G T)
3 (- 20 -) (- 1 -)
4 (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 535>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 2 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2630
PERCEPT
3 4
(A G T) (A G T)
3 (- 20 -) (- 1 -)
4 (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (V - -)
<STEP 536>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 2 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2637
PERCEPT
3 4
(A G T) (A G T)
2 (- 17 -) (- 2 -)
3 (- 20 -) (U - -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 2 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
<STEP 537>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 1 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2644
PERCEPT
3 4
(A G T) (A G T)
1 (- 11 -) (- - -)
2 (- 17 -) (U 1 -)
3 (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V 1 -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 538>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 1 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2641
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 11 -) (U - -)
2 (- 17 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 1 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 539>
SELECTED ACTION: Turn
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 1 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2640
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 11 -) (R - -)
2 (- 17 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 1 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 540>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V 1 -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2639
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 11 -) (D - -)
2 (- 17 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (- 1 -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 541>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2646
PERCEPT
3 4
(A G T) (A G T)
1 (- 11 -) (- - -)
2 (- 17 -) (D - -)
3 (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 542>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 17 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2645
PERCEPT
3 4
(A G T) (A G T)
1 (- 11 -) (- - -)
2 (- 17 -) (L - -)
3 (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 17 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 543>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 6 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2652
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- 11 -) (- - -)
2 (- 6 -) (L 16 -) (- - -)
3 (- 9 -) (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- 11 -) (- - -)
2 (? ? ?) (? ? ?) (- 6 -) (V 16 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 544>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2659
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 10 -) (- - -) (- 11 -)
2 (- 7 -) (L 5 -) (- 16 -)
3 (- 11 -) (- 9 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 10 -) (- - -) (- 11 -) (? ? ?)
2 (? ? ?) (- 7 -) (V 5 -) (- 16 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 9 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 545>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 15 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2666
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 8 -) (- 10 -) (- - -)
2 (- 15 -) (L 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 10 -) (- - -) (? ? ?) (? ? ?)
2 (- 15 -) (V 6 -) (- 5 -) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (- 9 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 546>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 14 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2673
PERCEPT
0 1
(A G T) (A G T)
1 (- 8 -) (- 10 -)
2 (L 14 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 14 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 547>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 13 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2682
PERCEPT
0 1
(A G T) (A G T)
1 (- 8 -) (- 10 -)
2 (U 13 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 8 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 13 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 548>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 7 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 13 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2689
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U 7 -) (- 10 -)
2 (- 13 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V 7 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 13 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 549>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 7 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 13 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2686
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- 7 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 7 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 550>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 7 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 13 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2685
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- 7 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 7 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 551>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 7 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 13 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2684
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - -)
1 (- 7 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 7 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 552>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 6 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 13 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2691
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (D 6 -) (- 10 -)
2 (- 13 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V 6 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 13 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 553>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 6 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 12 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2698
PERCEPT
0 1
(A G T) (A G T)
1 (- 6 -) (- 10 -)
2 (D 12 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 6 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 12 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 554>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 6 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 12 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2695
PERCEPT
0 1
(A G T) (A G T)
2 (- 12 -) (- 6 -)
3 (D - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 12 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 555>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 6 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 12 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2694
PERCEPT
0 1
(A G T) (A G T)
2 (- 12 -) (- 6 -)
3 (L - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 12 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 556>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 6 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 12 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2693
PERCEPT
0 1
(A G T) (A G T)
2 (- 12 -) (- 6 -)
3 (U - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 12 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 557>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 6 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 11 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2700
PERCEPT
0 1
(A G T) (A G T)
1 (- 6 -) (- 10 -)
2 (U 11 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 6 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 11 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 558>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 5 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 11 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2707
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U 5 -) (- 10 -)
2 (- 11 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V 5 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 11 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 559>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 5 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 11 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2704
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- 5 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 5 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 560>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 5 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 11 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2703
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- 5 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 5 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 561>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 5 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 11 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2702
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - -)
1 (- 5 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 5 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 562>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 4 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 11 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2709
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (D 4 -) (- 10 -)
2 (- 11 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V 4 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 11 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 563>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 4 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 10 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2716
PERCEPT
0 1
(A G T) (A G T)
1 (- 4 -) (- 10 -)
2 (D 10 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 4 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 10 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 564>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 4 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 10 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2713
PERCEPT
0 1
(A G T) (A G T)
2 (- 10 -) (- 6 -)
3 (D - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 10 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 565>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 4 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 10 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2712
PERCEPT
0 1
(A G T) (A G T)
2 (- 10 -) (- 6 -)
3 (L - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 10 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 566>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 4 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 10 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2711
PERCEPT
0 1
(A G T) (A G T)
2 (- 10 -) (- 6 -)
3 (U - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 10 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 567>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 4 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 9 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2718
PERCEPT
0 1
(A G T) (A G T)
1 (- 4 -) (- 10 -)
2 (U 9 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 4 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 9 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 568>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 3 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 9 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2725
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U 3 -) (- 10 -)
2 (- 9 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V 3 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 9 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 569>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 3 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 9 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2722
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- 3 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 3 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 570>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 3 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 9 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2721
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- 3 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 3 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 571>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 3 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 9 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2720
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - -)
1 (- 3 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 3 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 572>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 9 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2727
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (D 2 -) (- 10 -)
2 (- 9 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V 2 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 9 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 573>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 8 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2734
PERCEPT
0 1
(A G T) (A G T)
1 (- 2 -) (- 10 -)
2 (D 8 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 2 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 8 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 574>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 8 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2731
PERCEPT
0 1
(A G T) (A G T)
2 (- 8 -) (- 6 -)
3 (D - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 8 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 575>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 8 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2730
PERCEPT
0 1
(A G T) (A G T)
2 (- 8 -) (- 6 -)
3 (L - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 8 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 576>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 8 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2729
PERCEPT
0 1
(A G T) (A G T)
2 (- 8 -) (- 6 -)
3 (U - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 8 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 577>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 7 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2736
PERCEPT
0 1
(A G T) (A G T)
1 (- 2 -) (- 10 -)
2 (U 7 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 2 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 7 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 578>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 7 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2743
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U 1 -) (- 10 -)
2 (- 7 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V 1 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 7 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 579>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 7 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2740
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- 1 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 580>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 7 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2739
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- 1 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 581>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 7 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2738
PERCEPT
0 1
(A G T) (A G T)
0 (D - -) (- - -)
1 (- 1 -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- 1 -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 582>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 7 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2745
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (D - -) (- 10 -)
2 (- 7 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 7 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 583>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 6 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2752
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- 10 -)
2 (D 6 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 6 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 584>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 6 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2749
PERCEPT
0 1
(A G T) (A G T)
2 (- 6 -) (- 6 -)
3 (D - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 6 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 585>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 6 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2748
PERCEPT
0 1
(A G T) (A G T)
2 (- 6 -) (- 6 -)
3 (L - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 6 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 586>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 6 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2747
PERCEPT
0 1
(A G T) (A G T)
2 (- 6 -) (- 6 -)
3 (U - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 6 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 587>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2754
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- 10 -)
2 (U 5 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (V 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 588>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2751
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- 10 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 589>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 10 -) (V - -) (V 11 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2750
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (R - -) (- 10 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 590>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 9 -) (V - -) (V 11 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2757
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R 9 -) (- - -)
2 (- 5 -) (- 6 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V 9 -) (- - -) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (- 5 -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 591>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 9 -) (V - -) (V 11 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2754
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 9 -) (R - -) (- 11 -)
2 (- 6 -) (- 5 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 9 -) (V - -) (- 11 -) (? ? ?)
2 (? ? ?) (- 6 -) (- 5 -) (- 16 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 592>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 9 -) (V - -) (V 10 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2761
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R 10 -) (- - -)
2 (- 5 -) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V 10 -) (- - -)
2 (? ? ?) (? ? ?) (- 5 -) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 593>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 9 -) (V - -) (V 10 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2758
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 10 -) (R - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 10 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 594>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 9 -) (V - -) (V 10 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2757
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 10 -) (D - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 10 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 595>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 9 -) (V - -) (V 10 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2756
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 10 -) (L - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 10 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 596>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 9 -) (V - -) (V 9 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2763
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 9 -) (- - -)
2 (- 5 -) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V 9 -) (- - -)
2 (? ? ?) (? ? ?) (- 5 -) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 597>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 9 -) (V - -) (V 9 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2760
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 9 -) (L - -) (- 9 -)
2 (- 6 -) (- 5 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 9 -) (V - -) (- 9 -) (? ? ?)
2 (? ? ?) (- 6 -) (- 5 -) (- 16 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 598>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 8 -) (V - -) (V 9 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2767
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 8 -) (- - -)
2 (- 5 -) (- 6 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V 8 -) (- - -) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (- 5 -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 599>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 8 -) (V - -) (V 9 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2764
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (L - -) (- 8 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 8 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 600>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 8 -) (V - -) (V 9 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2763
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- 8 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 8 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 601>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 8 -) (V - -) (V 9 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2762
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (R - -) (- 8 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 8 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 602>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 7 -) (V - -) (V 9 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2769
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R 7 -) (- - -)
2 (- 5 -) (- 6 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V 7 -) (- - -) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (- 5 -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 603>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 7 -) (V - -) (V 9 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2766
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 7 -) (R - -) (- 9 -)
2 (- 6 -) (- 5 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 7 -) (V - -) (- 9 -) (? ? ?)
2 (? ? ?) (- 6 -) (- 5 -) (- 16 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 604>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 7 -) (V - -) (V 8 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2773
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R 8 -) (- - -)
2 (- 5 -) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V 8 -) (- - -)
2 (? ? ?) (? ? ?) (- 5 -) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 605>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 7 -) (V - -) (V 8 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2770
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 8 -) (R - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 8 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 606>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 7 -) (V - -) (V 8 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2769
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 8 -) (D - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 8 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 607>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 7 -) (V - -) (V 8 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2768
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 8 -) (L - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 8 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 608>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 7 -) (V - -) (V 7 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2775
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 7 -) (- - -)
2 (- 5 -) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V 7 -) (- - -)
2 (? ? ?) (? ? ?) (- 5 -) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 609>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 7 -) (V - -) (V 7 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2772
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 7 -) (L - -) (- 7 -)
2 (- 6 -) (- 5 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 7 -) (V - -) (- 7 -) (? ? ?)
2 (? ? ?) (- 6 -) (- 5 -) (- 16 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 610>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 6 -) (V - -) (V 7 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2779
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 6 -) (- - -)
2 (- 5 -) (- 6 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V 6 -) (- - -) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (- 5 -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 611>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 6 -) (V - -) (V 7 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2776
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (L - -) (- 6 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 612>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 6 -) (V - -) (V 7 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2775
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- 6 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 613>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 6 -) (V - -) (V 7 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2774
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (R - -) (- 6 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 614>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 5 -) (V - -) (V 7 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2781
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R 5 -) (- - -)
2 (- 5 -) (- 6 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V 5 -) (- - -) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (- 5 -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 615>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 5 -) (V - -) (V 7 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2778
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 5 -) (R - -) (- 7 -)
2 (- 6 -) (- 5 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 5 -) (V - -) (- 7 -) (? ? ?)
2 (? ? ?) (- 6 -) (- 5 -) (- 16 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 616>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 5 -) (V - -) (V 6 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2785
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R 6 -) (- - -)
2 (- 5 -) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V 6 -) (- - -)
2 (? ? ?) (? ? ?) (- 5 -) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 617>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 5 -) (V - -) (V 6 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2782
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 6 -) (R - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 6 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 618>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 5 -) (V - -) (V 6 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2781
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 6 -) (D - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 6 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 619>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 5 -) (V - -) (V 6 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2780
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 6 -) (L - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 6 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 620>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 5 -) (V - -) (V 5 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2787
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 5 -) (- - -)
2 (- 5 -) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V 5 -) (- - -)
2 (? ? ?) (? ? ?) (- 5 -) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 621>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 5 -) (V - -) (V 5 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2784
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 5 -) (L - -) (- 5 -)
2 (- 6 -) (- 5 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 5 -) (V - -) (- 5 -) (? ? ?)
2 (? ? ?) (- 6 -) (- 5 -) (- 16 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 622>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 4 -) (V - -) (V 5 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2791
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 4 -) (- - -)
2 (- 5 -) (- 6 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V 4 -) (- - -) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (- 5 -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 623>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 4 -) (V - -) (V 5 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2788
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (L - -) (- 4 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 624>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 4 -) (V - -) (V 5 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2787
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- 4 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 625>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 4 -) (V - -) (V 5 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2786
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (R - -) (- 4 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 626>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V 5 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2793
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R 3 -) (- - -)
2 (- 5 -) (- 6 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V 3 -) (- - -) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (- 5 -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 627>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V 5 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2790
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 3 -) (R - -) (- 5 -)
2 (- 6 -) (- 5 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 3 -) (V - -) (- 5 -) (? ? ?)
2 (? ? ?) (- 6 -) (- 5 -) (- 16 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 628>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V 4 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2797
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R 4 -) (- - -)
2 (- 5 -) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V 4 -) (- - -)
2 (? ? ?) (? ? ?) (- 5 -) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 629>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V 4 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2794
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 4 -) (R - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 630>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V 4 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2793
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 4 -) (D - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 631>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V 4 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2792
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 4 -) (L - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 4 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 632>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V 3 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2799
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 3 -) (- - -)
2 (- 5 -) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V 3 -) (- - -)
2 (? ? ?) (? ? ?) (- 5 -) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 633>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V 3 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2796
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 3 -) (L - -) (- 3 -)
2 (- 6 -) (- 5 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 3 -) (V - -) (- 3 -) (? ? ?)
2 (? ? ?) (- 6 -) (- 5 -) (- 16 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 634>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 2 -) (V - -) (V 3 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2803
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 2 -) (- - -)
2 (- 5 -) (- 6 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V 2 -) (- - -) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (- 5 -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 635>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 2 -) (V - -) (V 3 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2800
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (L - -) (- 2 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 636>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 2 -) (V - -) (V 3 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2799
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- 2 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 637>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 2 -) (V - -) (V 3 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2798
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (R - -) (- 2 -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 638>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2805
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R 1 -) (- - -)
2 (- 5 -) (- 6 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V 1 -) (- - -) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (- 5 -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 639>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2802
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 1 -) (R - -) (- 3 -)
2 (- 6 -) (- 5 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 1 -) (V - -) (- 3 -) (? ? ?)
2 (? ? ?) (- 6 -) (- 5 -) (- 16 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 640>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2809
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R 2 -) (- - -)
2 (- 5 -) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V 2 -) (- - -)
2 (? ? ?) (? ? ?) (- 5 -) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 641>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2806
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 2 -) (R - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 642>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2805
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 2 -) (D - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 643>
SELECTED ACTION: Turn
Agent state: (4, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2804
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 2 -) (L - -)
2 (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (- - -) (- - -)
1 (? ? ?) (? ? ?) (? ? ?) (- 2 -) (V - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 644>
SELECTED ACTION: Advance
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2811
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 1 -) (- - -)
2 (- 5 -) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V 1 -) (- - -)
2 (? ? ?) (? ? ?) (- 5 -) (- 16 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 645>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2808
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 1 -) (L - -) (- 1 -)
2 (- 6 -) (- 5 -) (- 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- 1 -) (V - -) (- 1 -) (? ? ?)
2 (? ? ?) (- 6 -) (- 5 -) (- 16 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 646>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2815
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- 5 -) (- 6 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (- 5 -) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 647>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2812
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (L - -) (- - -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 648>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2811
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 649>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2810
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (R - -) (- - -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 650>
SELECTED ACTION: Turn
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 5 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2809
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (D - -) (- - -)
2 (- 5 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 5 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 651>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 4 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2816
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (D 4 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V 4 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 652>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 4 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2813
PERCEPT
0 1
(A G T) (A G T)
2 (- 4 -) (- 6 -)
3 (D - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 4 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 653>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 4 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2812
PERCEPT
0 1
(A G T) (A G T)
2 (- 4 -) (- 6 -)
3 (L - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 4 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 654>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 4 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2811
PERCEPT
0 1
(A G T) (A G T)
2 (- 4 -) (- 6 -)
3 (U - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 4 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 655>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 3 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2818
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (U 3 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V 3 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 656>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 3 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2815
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - -)
2 (- 3 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 3 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 657>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 3 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2814
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (R - -) (- - -)
2 (- 3 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 3 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 658>
SELECTED ACTION: Turn
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 3 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2813
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (D - -) (- - -)
2 (- 3 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 3 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 659>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 2 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2820
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (D 2 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V 2 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 660>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 2 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2817
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 -) (- 6 -)
3 (D - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 661>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 2 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2816
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 -) (- 6 -)
3 (L - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 662>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 2 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2815
PERCEPT
0 1
(A G T) (A G T)
2 (- 2 -) (- 6 -)
3 (U - -) (- 11 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- 2 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 663>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 1 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2822
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (U 1 -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V 1 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 664>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 1 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2819
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - -)
2 (- 1 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 1 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 665>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 1 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2818
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (R - -) (- - -)
2 (- 1 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 1 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 666>
SELECTED ACTION: Turn
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V 1 -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2817
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (D - -) (- - -)
2 (- 1 -) (- 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- 1 -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 667>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2824
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (D - -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 668>
SELECTED ACTION: Turn
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2823
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (L - -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 669>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2822
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (U - -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 670>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 6 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2821
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (R - -) (- 6 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 671>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 5 -) (V 5 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2828
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (R 5 -) (- 5 -)
3 (- - -) (- 11 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (V 5 -) (- 5 -) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (- 9 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 672>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 5 -) (V 4 -) (V 16 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2835
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- 1 -)
2 (- 5 -) (R 4 -) (- 16 -)
3 (- 11 -) (- 9 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
2 (? ? ?) (- 5 -) (V 4 -) (- 16 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 9 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 673>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 5 -) (V 4 -) (V 15 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2842
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- 1 -) (- - -)
2 (- 4 -) (R 15 -) (- - -)
3 (- 9 -) (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (- 4 -) (V 15 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 674>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 5 -) (V 4 -) (V 15 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2839
PERCEPT
3 4
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (- 15 -) (R - -)
3 (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 15 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 675>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 5 -) (V 4 -) (V 15 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2838
PERCEPT
3 4
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (- 15 -) (D - -)
3 (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 15 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 676>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 5 -) (V 4 -) (V 15 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2837
PERCEPT
3 4
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (- 15 -) (L - -)
3 (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 15 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 677>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 5 -) (V 4 -) (V 14 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2844
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- 1 -) (- - -)
2 (- 4 -) (L 14 -) (- - -)
3 (- 9 -) (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (- 4 -) (V 14 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 678>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 5 -) (V 3 -) (V 14 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2851
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- 1 -)
2 (- 5 -) (L 3 -) (- 14 -)
3 (- 11 -) (- 9 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
2 (? ? ?) (- 5 -) (V 3 -) (- 14 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 9 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 679>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 4 -) (V 3 -) (V 14 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2858
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (L 4 -) (- 3 -)
3 (- - -) (- 11 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (V 4 -) (- 3 -) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (- 9 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 680>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 4 -) (V 3 -) (V 14 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2855
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (L - -) (- 4 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 681>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 4 -) (V 3 -) (V 14 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2854
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (U - -) (- 4 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 682>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 4 -) (V 3 -) (V 14 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2853
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (R - -) (- 4 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 683>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 3 -) (V 3 -) (V 14 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2860
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (R 3 -) (- 3 -)
3 (- - -) (- 11 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (V 3 -) (- 3 -) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (- 9 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 684>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 3 -) (V 2 -) (V 14 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2867
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- 1 -)
2 (- 3 -) (R 2 -) (- 14 -)
3 (- 11 -) (- 9 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
2 (? ? ?) (- 3 -) (V 2 -) (- 14 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 9 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 685>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 3 -) (V 2 -) (V 13 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2874
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- 1 -) (- - -)
2 (- 2 -) (R 13 -) (- - -)
3 (- 9 -) (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (- 2 -) (V 13 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 686>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 3 -) (V 2 -) (V 13 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2871
PERCEPT
3 4
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (- 13 -) (R - -)
3 (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 13 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 687>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 3 -) (V 2 -) (V 13 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2870
PERCEPT
3 4
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (- 13 -) (D - -)
3 (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 13 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 688>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 3 -) (V 2 -) (V 13 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2869
PERCEPT
3 4
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (- 13 -) (L - -)
3 (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 13 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 689>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 3 -) (V 2 -) (V 12 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2876
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- 1 -) (- - -)
2 (- 2 -) (L 12 -) (- - -)
3 (- 9 -) (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (- 2 -) (V 12 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 690>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 3 -) (V 1 -) (V 12 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2883
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- 1 -)
2 (- 3 -) (L 1 -) (- 12 -)
3 (- 11 -) (- 9 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
2 (? ? ?) (- 3 -) (V 1 -) (- 12 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 9 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 691>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 2 -) (V 1 -) (V 12 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2890
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (L 2 -) (- 1 -)
3 (- - -) (- 11 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (V 2 -) (- 1 -) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (- 9 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 692>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 2 -) (V 1 -) (V 12 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2887
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (L - -) (- 2 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 693>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 2 -) (V 1 -) (V 12 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2886
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (U - -) (- 2 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 694>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 2 -) (V 1 -) (V 12 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2885
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (R - -) (- 2 -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 695>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 1 -) (V 1 -) (V 12 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2892
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (R 1 -) (- 1 -)
3 (- - -) (- 11 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (V 1 -) (- 1 -) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (- 9 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 696>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 1 -) (V - -) (V 12 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2899
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- 1 -)
2 (- 1 -) (R - -) (- 12 -)
3 (- 11 -) (- 9 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
2 (? ? ?) (- 1 -) (V - -) (- 12 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 9 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 697>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 1 -) (V - -) (V 11 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2906
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- 1 -) (- - -)
2 (- - -) (R 11 -) (- - -)
3 (- 9 -) (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V 11 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 698>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 1 -) (V - -) (V 11 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2903
PERCEPT
3 4
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (- 11 -) (R - -)
3 (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 699>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 1 -) (V - -) (V 11 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2902
PERCEPT
3 4
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (- 11 -) (D - -)
3 (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 700>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 1 -) (V - -) (V 11 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2901
PERCEPT
3 4
(A G T) (A G T)
1 (- 1 -) (- - -)
2 (- 11 -) (L - -)
3 (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (? ? ?) (- 11 -) (V - -)
3 (? ? ?) (? ? ?) (? ? ?) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 701>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 1 -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2908
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- 1 -) (- - -)
2 (- - -) (L 10 -) (- - -)
3 (- 9 -) (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V 10 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 702>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V 1 -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2905
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- 1 -)
2 (- 1 -) (L - -) (- 10 -)
3 (- 11 -) (- 9 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
2 (? ? ?) (- 1 -) (V - -) (- 10 -) (? ? ?)
3 (? ? ?) (- 11 -) (- 9 -) (- 20 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 703>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2912
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (L - -) (- - -)
3 (- - -) (- 11 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (- 9 -) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 704>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2909
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (L - -) (- - -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 705>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2908
PERCEPT
0 1
(A G T) (A G T)
1 (- - -) (- - -)
2 (U - -) (- - -)
3 (- - -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (- - -) (- 11 -) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 706>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2905
PERCEPT
0 1
(A G T) (A G T)
0 (- - -) (- - -)
1 (U - -) (- - -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 707>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2902
PERCEPT
0 1
(A G T) (A G T)
0 (U - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 708>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2901
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- - -)
1 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
1 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 709>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2898
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
1 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 710>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2895
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -)
1 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 711>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2894
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -)
1 (- - -) (- - -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (V - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (- - -) (- 1 -) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 712>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2891
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- 1 -)
2 (- - -) (- - -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- 1 -) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- 10 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 713>
SELECTED ACTION: Turn
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2890
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- 1 -)
2 (- - -) (- - -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- 1 -) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- 10 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 714>
SELECTED ACTION: Turn
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2889
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- 1 -)
2 (- - -) (- - -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- 1 -) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- 10 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 715>
SELECTED ACTION: Turn
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2888
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- 1 -)
2 (- - -) (- - -) (- 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
1 (? ? ?) (- - -) (V - -) (- 1 -) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- 10 -) (? ? ?)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 716>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2895
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- - -)
2 (- - -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 10 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 717>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2894
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 10 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 718>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 9 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2901
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (D 9 -) (- - -)
3 (- 9 -) (- 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V 9 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 20 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 719>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 9 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 19 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2908
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 9 -) (- - -)
3 (- 9 -) (D 19 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- 9 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 19 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 720>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 9 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 19 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2905
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 19 -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 19 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 721>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 9 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 19 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2904
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 19 -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 19 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 722>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 9 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 19 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2903
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 19 -) (- - -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 19 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 723>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 9 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 18 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2910
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 9 -) (- - -)
3 (- 9 -) (U 18 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- 9 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 18 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 724>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 8 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 18 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2917
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (U 8 -) (- - -)
3 (- 9 -) (- 18 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V 8 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 18 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 725>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 8 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 18 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2914
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 8 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 726>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 8 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 18 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2913
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- - -)
2 (- - -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 8 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 727>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 8 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 18 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2912
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 8 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 728>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 7 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 18 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2919
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (D 7 -) (- - -)
3 (- 9 -) (- 18 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V 7 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 18 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 729>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 7 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 17 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2926
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 7 -) (- - -)
3 (- 9 -) (D 17 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- 7 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 17 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 730>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 7 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 17 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2923
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 17 -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 17 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 731>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 7 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 17 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2922
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 17 -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 17 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 732>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 7 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 17 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2921
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 17 -) (- - -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 17 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 733>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 7 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 16 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2928
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 7 -) (- - -)
3 (- 9 -) (U 16 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- 7 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 16 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 734>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 6 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 16 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2935
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (U 6 -) (- - -)
3 (- 9 -) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V 6 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 16 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 735>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 6 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 16 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2932
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 6 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 736>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 6 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 16 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2931
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- - -)
2 (- - -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 6 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 737>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 6 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 16 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2930
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 6 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 738>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 5 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 16 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2937
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (D 5 -) (- - -)
3 (- 9 -) (- 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V 5 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 16 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 739>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 5 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 15 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2944
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 5 -) (- - -)
3 (- 9 -) (D 15 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- 5 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 15 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 740>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 5 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 15 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2941
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 15 -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 15 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 741>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 5 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 15 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2940
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 15 -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 15 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 742>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 5 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 15 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2939
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 15 -) (- - -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 15 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 743>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 5 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 14 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2946
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 5 -) (- - -)
3 (- 9 -) (U 14 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- 5 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 14 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 744>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 4 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 14 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2953
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (U 4 -) (- - -)
3 (- 9 -) (- 14 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V 4 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 14 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 745>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 4 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 14 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2950
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 4 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 746>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 4 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 14 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2949
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- - -)
2 (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 4 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 747>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 4 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 14 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2948
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 4 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 748>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 14 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2955
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (D 3 -) (- - -)
3 (- 9 -) (- 14 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V 3 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 14 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 749>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 13 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2962
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 3 -) (- - -)
3 (- 9 -) (D 13 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- 3 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 13 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 750>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 13 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2959
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 13 -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 13 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 751>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 13 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2958
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 13 -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 13 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 752>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 13 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2957
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 13 -) (- - -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 13 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 753>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 12 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2964
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 3 -) (- - -)
3 (- 9 -) (U 12 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- 3 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 12 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 754>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 12 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2971
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (U 2 -) (- - -)
3 (- 9 -) (- 12 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V 2 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 12 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 755>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 12 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2968
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (U - -) (- - -)
2 (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 2 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 756>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 12 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2967
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (R - -) (- - -)
2 (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 2 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 757>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 12 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2966
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (D - -) (- - -)
2 (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
1 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (- 2 -) (- - -)
3 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 758>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 12 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2973
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (D 1 -) (- - -)
3 (- 9 -) (- 12 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V 1 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 12 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 759>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 11 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2980
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 1 -) (- - -)
3 (- 9 -) (D 11 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 11 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 760>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 11 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2977
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 11 -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 11 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 761>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 11 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2976
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 11 -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 11 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 762>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 11 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2975
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 11 -) (- - -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 11 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 763>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 10 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2982
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 1 -) (- - -)
3 (- 9 -) (U 10 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- 1 -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 10 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 764>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 10 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2989
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (U - -) (- - -)
3 (- 9 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 10 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 765>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 10 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2988
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (R - -) (- - -)
3 (- 9 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 10 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 766>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 10 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2987
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (D - -) (- - -)
3 (- 9 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 10 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 767>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 9 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2994
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (D 9 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 9 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 768>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 9 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2991
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 9 -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 9 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 769>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 9 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2990
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 9 -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 9 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 770>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 9 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2989
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 9 -) (- - -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 9 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 771>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 8 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2996
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (U 8 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 8 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 772>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 8 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2993
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (U - -) (- - -)
3 (- 9 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 8 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 773>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 8 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2992
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (R - -) (- - -)
3 (- 9 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 8 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 774>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 8 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2991
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (D - -) (- - -)
3 (- 9 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 8 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 775>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 7 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2998
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (D 7 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 7 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 776>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 7 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2995
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 7 -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 7 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 777>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 7 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2994
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 7 -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 7 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 778>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 7 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2993
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 7 -) (- - -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 7 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 779>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 6 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3000
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (U 6 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 6 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 780>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 6 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2997
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (U - -) (- - -)
3 (- 9 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 6 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 781>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 6 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2996
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (R - -) (- - -)
3 (- 9 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 6 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 782>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 6 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2995
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (D - -) (- - -)
3 (- 9 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 6 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 783>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 5 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3002
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (D 5 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 5 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 784>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 5 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2999
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 5 -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 5 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 785>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 5 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2998
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 5 -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 5 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 786>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 5 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2997
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 5 -) (- - -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 5 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 787>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3004
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (U 4 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 4 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 788>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3001
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (U - -) (- - -)
3 (- 9 -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 4 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 789>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3000
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (R - -) (- - -)
3 (- 9 -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 4 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 790>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2999
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (D - -) (- - -)
3 (- 9 -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 4 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 791>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3006
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (D 3 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 3 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 792>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3003
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 3 -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 3 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 793>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3002
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 3 -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 3 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 794>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3001
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 3 -) (- - -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 3 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 795>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3008
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (U 2 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 2 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 796>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3005
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (U - -) (- - -)
3 (- 9 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 2 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 797>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3004
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (R - -) (- - -)
3 (- 9 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 2 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 798>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3003
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- - -) (- - -) (- - -)
2 (- - -) (D - -) (- - -)
3 (- 9 -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
2 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (- 2 -) (- - -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 799>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3010
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (D 1 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V 1 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 800>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3007
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 1 -) (- - -)
4 (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 1 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 801>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3006
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 1 -) (- - -)
4 (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 1 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 802>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3005
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 9 -) (- 1 -) (- - -)
4 (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
3 (? ? ?) (? ? ?) (- 9 -) (- 1 -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (V - -) (- - -)
<STEP 803>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3012
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (U - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 804>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3011
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (R - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 805>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3010
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (D - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 806>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 9 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3009
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 9 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 807>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 8 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3016
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 11 -) (L 8 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 11 -) (V 8 -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 808>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 8 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3023
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (L 10 -) (- 8 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 10 -) (- 8 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 809>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 8 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3020
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (L - -) (- 10 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 810>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 8 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3019
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U - -) (- 10 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 811>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 8 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3018
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (R - -) (- 10 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 10 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 812>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 9 -) (V 8 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3025
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 9 -) (- 8 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 9 -) (- 8 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 813>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 9 -) (V 7 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3032
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (R 7 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 9 -) (V 7 -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 814>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 9 -) (V 7 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3029
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 7 -) (R - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 7 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 815>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 9 -) (V 7 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3028
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 7 -) (D - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 7 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 816>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 9 -) (V 7 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3027
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 7 -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 7 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 817>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 9 -) (V 6 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3034
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 9 -) (L 6 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 9 -) (V 6 -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 818>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 8 -) (V 6 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3041
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (L 8 -) (- 6 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 8 -) (- 6 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 819>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 8 -) (V 6 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3038
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (L - -) (- 8 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 8 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 820>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 8 -) (V 6 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3037
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U - -) (- 8 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 8 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 821>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 8 -) (V 6 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3036
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (R - -) (- 8 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 8 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 822>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 7 -) (V 6 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3043
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 7 -) (- 6 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 7 -) (- 6 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 823>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 7 -) (V 5 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3050
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 7 -) (R 5 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 7 -) (V 5 -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 824>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 7 -) (V 5 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3047
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 5 -) (R - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 5 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 825>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 7 -) (V 5 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3046
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 5 -) (D - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 5 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 826>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 7 -) (V 5 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3045
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 5 -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 5 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 827>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 7 -) (V 4 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3052
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 7 -) (L 4 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 7 -) (V 4 -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 828>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 6 -) (V 4 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3059
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (L 6 -) (- 4 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 6 -) (- 4 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 829>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 6 -) (V 4 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3056
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (L - -) (- 6 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 830>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 6 -) (V 4 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3055
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U - -) (- 6 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 831>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 6 -) (V 4 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3054
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (R - -) (- 6 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 6 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 832>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 5 -) (V 4 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3061
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 5 -) (- 4 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 5 -) (- 4 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 833>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 5 -) (V 3 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3068
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 5 -) (R 3 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 5 -) (V 3 -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 834>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 5 -) (V 3 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3065
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 3 -) (R - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 3 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 835>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 5 -) (V 3 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3064
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 3 -) (D - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 3 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 836>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 5 -) (V 3 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3063
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 3 -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 3 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 837>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 5 -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3070
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 5 -) (L 2 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 5 -) (V 2 -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 838>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 4 -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3077
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (L 4 -) (- 2 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 4 -) (- 2 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 839>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 4 -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3074
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (L - -) (- 4 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 840>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 4 -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3073
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U - -) (- 4 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 841>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 4 -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3072
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (R - -) (- 4 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 4 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 842>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 3 -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3079
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 3 -) (- 2 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 3 -) (- 2 -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 843>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3086
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 3 -) (R 1 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 3 -) (V 1 -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 844>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3083
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 1 -) (R - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 845>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3082
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 1 -) (D - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 846>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 3 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3081
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 1 -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
3 (? ? ?) (? ? ?) (- 1 -) (V - -) (- - -)
4 (? ? ?) (? ? ?) (- - -) (- - -) (- - -)
<STEP 847>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 3 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3088
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 3 -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 3 -) (V - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 848>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3095
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (L 2 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 2 -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 849>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3092
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (L - -) (- 2 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 850>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3091
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U - -) (- 2 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 851>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3090
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (R - -) (- 2 -)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
3 (V - -) (- 2 -) (? ? ?) (? ? ?) (? ? ?)
4 (- - -) (- - -) (? ? ?) (? ? ?) (? ? ?)
<STEP 852>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3097
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 1 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V 1 -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STEP 853>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3094
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 1 -) (R - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 1 -) (V - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 854>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3093
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 1 -) (D - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 1 -) (V - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 855>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3092
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- 1 -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
3 (? ? ?) (- 1 -) (V - -) (- - -) (? ? ?)
4 (? ? ?) (- - -) (- - -) (- - -) (? ? ?)
<STEP 856>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3099
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
2 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
3 (- - -) (V - -) (- - -) (? ? ?) (? ? ?)
4 (- - -) (- - -) (- - -) (? ? ?) (? ? ?)
<STARTING>
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 100
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 21 1) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 21 1) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 20 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 105
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 20 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 21 1) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 19 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 115
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 19 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 20 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 3>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 18 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 125
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 18 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 19 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 4>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 17 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 135
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 17 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 18 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 16 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 145
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 16 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 17 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 6>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 15 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 155
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 15 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 16 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 7>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 14 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 165
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 14 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 15 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 13 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 175
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 13 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 14 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 12 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 185
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 12 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 13 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 10>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 11 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 195
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 11 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 12 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 10 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 205
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 10 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 11 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 12>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 9 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 215
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 9 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 10 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 13>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 8 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 225
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 8 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 9 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 14>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 7 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 235
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 7 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 8 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 15>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 6 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 245
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 6 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 7 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 16>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 5 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 255
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 5 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 6 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 4 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 265
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 4 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 5 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 3 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 275
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 3 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 4 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 19>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 2 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 285
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 2 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 3 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 20>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 1 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 295
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L 1 -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 2 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 305
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
1 (- 19 -) (- 15 1) (- 17 -)
2 (- 17 -) (L - -) (- 22 -)
3 (- 20 1) (- 24 -) (- 25 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (? ? ?) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (? ? ?) (- 17 -) (V 1 -) (- 22 -) (? ? ?)
3 (? ? ?) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 16 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 314
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 16 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 17 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 23>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 15 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 324
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 15 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 16 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 14 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 334
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 14 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 15 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 25>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 13 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 344
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 13 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 14 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 26>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 12 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 354
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 12 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 13 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 27>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 11 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 364
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 11 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 12 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 28>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 10 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 374
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 10 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 11 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 9 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 384
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 9 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 10 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 30>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 8 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 394
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 8 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 9 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 7 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 404
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 7 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 8 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 32>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 6 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 414
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 6 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 7 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 33>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 5 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 424
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 5 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 6 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 4 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 434
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 4 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 5 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 35>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 3 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 444
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 3 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 4 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 36>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 2 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 454
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 2 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 3 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 37>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 1 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 464
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L 1 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 2 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 38>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 474
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
1 (- 18 -) (- 19 -) (- 15 1)
2 (- 26 -) (L - -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (- 26 -) (V 1 -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 25 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 483
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (L 25 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 26 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 492
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 24 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 25 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 41>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 23 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 502
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 23 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 24 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 42>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 22 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 512
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 22 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 23 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 21 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 522
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 21 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 22 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 44>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 20 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 532
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 20 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 21 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 19 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 542
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 19 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 20 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 46>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 18 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 552
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 18 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 19 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 17 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 562
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 17 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 18 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 48>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 16 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 572
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 16 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 17 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 49>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 15 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 582
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 15 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 16 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 14 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 592
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 14 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 15 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 51>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 13 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 602
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 13 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 14 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 52>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 12 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 612
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 12 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 13 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 53>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 11 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 622
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 11 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 12 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 54>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 10 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 632
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 10 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 11 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 9 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 642
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 9 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 10 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 56>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 8 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 652
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 8 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 9 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 7 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 662
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 7 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 8 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 58>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 6 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 672
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 6 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 7 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 59>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 5 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 682
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 5 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 6 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 60>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 4 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 692
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 4 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 5 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 61>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 3 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 702
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 3 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 4 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 2 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 712
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 2 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 3 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 63>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 1 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 722
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U 1 -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 2 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 64>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 732
PERCEPT
0 1
(A G T) (A G T)
1 (- 18 -) (- 19 -)
2 (U - -) (- - -)
3 (- 9 -) (- 20 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V 1 -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 741
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 17 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 18 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 66>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 751
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 16 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 67>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 761
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 15 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 68>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 771
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 14 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 69>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 781
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 13 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 70>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 791
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 12 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 71>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 801
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 11 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 72>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 811
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 10 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 73>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 821
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 9 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 74>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 831
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 8 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 75>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 7 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 841
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 7 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 76>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 6 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 851
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 6 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 7 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 77>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 5 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 861
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 5 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 6 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 78>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 4 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 871
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 4 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 5 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 79>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 3 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 881
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 3 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 4 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 80>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 2 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 891
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 2 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 3 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 81>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 1 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 901
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U 1 -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 2 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 82>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 911
PERCEPT
0 1
(A G T) (A G T)
0 (- 16 -) (- 21 -)
1 (U - -) (- 19 -)
2 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V 1 -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 15 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 920
PERCEPT
0 1
(A G T) (A G T)
0 (U 15 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 16 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 929
PERCEPT
0 1
(A G T) (A G T)
0 (R 14 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 15 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 85>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 13 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 939
PERCEPT
0 1
(A G T) (A G T)
0 (R 13 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 86>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 949
PERCEPT
0 1
(A G T) (A G T)
0 (R 12 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 13 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 87>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 959
PERCEPT
0 1
(A G T) (A G T)
0 (R 11 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 88>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 969
PERCEPT
0 1
(A G T) (A G T)
0 (R 10 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 89>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 979
PERCEPT
0 1
(A G T) (A G T)
0 (R 9 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 90>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 989
PERCEPT
0 1
(A G T) (A G T)
0 (R 8 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 91>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 999
PERCEPT
0 1
(A G T) (A G T)
0 (R 7 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 92>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1009
PERCEPT
0 1
(A G T) (A G T)
0 (R 6 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 93>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1019
PERCEPT
0 1
(A G T) (A G T)
0 (R 5 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 94>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1029
PERCEPT
0 1
(A G T) (A G T)
0 (R 4 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 95>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1039
PERCEPT
0 1
(A G T) (A G T)
0 (R 3 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 96>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1049
PERCEPT
0 1
(A G T) (A G T)
0 (R 2 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 97>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1059
PERCEPT
0 1
(A G T) (A G T)
0 (R 1 -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 98>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1069
PERCEPT
0 1
(A G T) (A G T)
0 (R - -) (- 21 -)
1 (- - -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 21 -) (? ? ?) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 20 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1078
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 20 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 21 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 100>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 19 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1088
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 19 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 20 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 101>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 18 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1098
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 18 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 19 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 102>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 17 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1108
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 17 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 18 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 103>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 16 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1118
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 16 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 17 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 104>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 15 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1128
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 15 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 16 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 105>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 14 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1138
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 14 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 15 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 106>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1148
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 13 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 14 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 107>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1158
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 12 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 108>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1168
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 11 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 109>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 10 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1178
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 10 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 110>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1188
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 9 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 10 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 111>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1198
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 8 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 112>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1208
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 7 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 113>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1218
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 6 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 114>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1228
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 5 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 115>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1238
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 4 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 116>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1248
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 3 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 117>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1258
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 2 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 118>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1268
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 119>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1278
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 25 1)
1 (- - -) (- 19 -) (- 15 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- 25 1) (? ? ?) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 24 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1282
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 24 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 25 1) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 121>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 23 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1292
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 23 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 24 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 122>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 22 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1302
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 22 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 23 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 123>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 21 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1312
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 21 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 22 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 124>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 20 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1322
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 20 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 21 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 125>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 19 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1332
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 19 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 20 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 126>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 18 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1342
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 18 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 19 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 127>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 17 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1352
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 17 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 18 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 128>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 16 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1362
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 16 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 17 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 129>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 15 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1372
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 15 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 16 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 130>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 14 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1382
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 14 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 15 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 131>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 13 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1392
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 13 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 14 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 132>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 12 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1402
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 12 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 13 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 133>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 11 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1412
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 11 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 12 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 134>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 10 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1422
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 10 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 11 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 135>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 9 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1432
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 9 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 10 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 136>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1442
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 8 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 9 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 137>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1452
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 7 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 138>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1462
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 6 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 139>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1472
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 5 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 140>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1482
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 4 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 141>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1492
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 3 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 142>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1502
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 2 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 143>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1512
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 144>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1522
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 19 -)
1 (- 19 -) (- 15 1) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (- 19 -) (? ? ?)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (? ? ?)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 18 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1531
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 18 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 146>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 17 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1541
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 17 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 18 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 147>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 16 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1551
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 16 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 17 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 148>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 15 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1561
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 15 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 16 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 149>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 14 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1571
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 14 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 15 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 150>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 13 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1581
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 13 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 14 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 151>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 12 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1591
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 12 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 13 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 152>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 11 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1601
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 11 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 12 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 153>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 10 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1611
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 10 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 11 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 154>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 9 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1621
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 9 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 10 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 155>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 8 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1631
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 8 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 9 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 156>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 7 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1641
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 7 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 8 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 157>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 6 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1651
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 6 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 7 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 158>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 5 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1661
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 5 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 6 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 159>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 4 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1671
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 4 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 5 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 160>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 3 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1681
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 3 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 4 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 161>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 2 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1691
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 2 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 3 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 162>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1701
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 2 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 163>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1711
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 19 -)
1 (- 15 1) (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 18 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1720
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (R 18 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 17 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1729
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 17 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 18 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 166>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 16 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1739
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 16 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 17 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 167>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 15 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1749
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 15 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 16 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 168>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 14 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1759
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 14 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 15 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 169>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 13 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1769
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 13 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 14 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 170>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 12 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1779
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 12 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 13 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 171>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 11 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1789
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 11 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 12 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 172>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 10 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1799
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 10 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 11 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 173>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 9 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1809
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 9 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 10 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 174>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 8 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1819
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 8 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 9 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 175>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 7 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1829
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 7 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 8 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 176>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 6 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1839
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 6 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 7 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 177>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 5 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1849
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 5 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 6 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 178>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 4 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1859
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 4 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 5 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 179>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 3 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1869
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 3 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 4 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 180>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 2 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1879
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 2 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 3 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 181>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 1 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1889
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D 1 -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 2 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 182>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1899
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (D - -)
1 (- 17 -) (- 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 1 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (? ? ?)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1908
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 13 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 184>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1918
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 12 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 185>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1928
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 11 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 186>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1938
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 10 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 187>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1948
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 9 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 188>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1958
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 8 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 189>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1968
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 7 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 190>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1978
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 6 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 191>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1988
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 5 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 192>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1998
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 4 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 193>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 3 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2008
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 3 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 194>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 2 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2018
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 2 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 3 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 195>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 1 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2028
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D 1 -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 2 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 196>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2038
PERCEPT
3 4
(A G T) (A G T)
0 (- - -) (- - -)
1 (- 17 -) (D - -)
2 (- 22 -) (- 21 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 1 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (? ? ?)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2042
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 20 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 198>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 19 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2052
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 19 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 199>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 18 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2062
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 18 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 19 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 200>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 17 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2072
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 17 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 18 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 201>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 16 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2082
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 16 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 17 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 202>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 15 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2092
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 15 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 16 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 203>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 14 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2102
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 14 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 15 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 204>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 13 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2112
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 13 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 14 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 205>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 12 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2122
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 12 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 13 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 206>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 11 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2132
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 11 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 12 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 207>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 10 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2142
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 10 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 11 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 208>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 9 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2152
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 9 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 10 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 209>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 8 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2162
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 8 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 9 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 210>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 7 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2172
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 7 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 8 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 211>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 6 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2182
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 6 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 7 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 212>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 5 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2192
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 5 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 6 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 213>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 4 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2202
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 4 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 5 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 214>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 3 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2212
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 3 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 4 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 215>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 2 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2222
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 2 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 3 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 216>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 1 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2232
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D 1 -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 2 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 217>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2242
PERCEPT
3 4
(A G T) (A G T)
1 (- 17 -) (- - -)
2 (- 22 -) (D - -)
3 (- 25 -) (- 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 1 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (? ? ?) (? ? ?)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2251
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 19 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 20 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 219>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2261
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 18 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 220>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2271
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 17 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 221>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2281
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 16 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 222>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2291
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 15 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 223>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2301
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 14 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 224>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2311
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 13 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 225>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2321
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 12 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 226>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2331
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 11 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 227>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2341
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 10 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 228>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 9 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2351
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 9 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 229>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 8 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2361
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 8 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 9 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 230>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 7 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2371
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 7 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 8 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 231>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 6 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2381
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 6 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 7 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 232>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 5 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2391
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 5 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 6 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 233>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 4 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2401
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 4 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 5 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 234>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 3 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2411
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 3 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 4 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 235>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 2 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2421
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 2 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 3 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 236>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 1 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2431
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D 1 -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 2 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 237>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2441
PERCEPT
3 4
(A G T) (A G T)
2 (- 22 -) (- - -)
3 (- 25 -) (D - -)
4 (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 1 -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (- 21 -)
<STEP 238>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 20 -)
Agent performance: 2450
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (D 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 21 -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 19 -)
Agent performance: 2459
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 20 -)
<STEP 240>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 18 -)
Agent performance: 2469
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 18 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 19 -)
<STEP 241>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 17 -)
Agent performance: 2479
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 18 -)
<STEP 242>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 16 -)
Agent performance: 2489
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 17 -)
<STEP 243>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 15 -)
Agent performance: 2499
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 16 -)
<STEP 244>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 14 -)
Agent performance: 2509
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 15 -)
<STEP 245>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 13 -)
Agent performance: 2519
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 14 -)
<STEP 246>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 12 -)
Agent performance: 2529
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 13 -)
<STEP 247>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 11 -)
Agent performance: 2539
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 12 -)
<STEP 248>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 10 -)
Agent performance: 2549
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 11 -)
<STEP 249>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 9 -)
Agent performance: 2559
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 10 -)
<STEP 250>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 8 -)
Agent performance: 2569
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 9 -)
<STEP 251>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 7 -)
Agent performance: 2579
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 8 -)
<STEP 252>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 6 -)
Agent performance: 2589
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 7 -)
<STEP 253>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 5 -)
Agent performance: 2599
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 6 -)
<STEP 254>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 4 -)
Agent performance: 2609
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 5 -)
<STEP 255>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 3 -)
Agent performance: 2619
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 4 -)
<STEP 256>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 2 -)
Agent performance: 2629
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 3 -)
<STEP 257>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 1 -)
Agent performance: 2639
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 2 -)
<STEP 258>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V - -)
Agent performance: 2649
PERCEPT
3 4
(A G T) (A G T)
3 (- 25 -) (- - -)
4 (- 29 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (? ? ?) (- 29 -) (V 1 -)
<STEP 259>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 28 -) (V - -)
Agent performance: 2658
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 28 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 29 -) (V - -)
<STEP 260>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 27 -) (V - -)
Agent performance: 2668
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 27 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 28 -) (V - -)
<STEP 261>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 26 -) (V - -)
Agent performance: 2678
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 26 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 27 -) (V - -)
<STEP 262>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 25 -) (V - -)
Agent performance: 2688
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 25 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 26 -) (V - -)
<STEP 263>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 24 -) (V - -)
Agent performance: 2698
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 24 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 25 -) (V - -)
<STEP 264>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 23 -) (V - -)
Agent performance: 2708
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 23 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 24 -) (V - -)
<STEP 265>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 22 -) (V - -)
Agent performance: 2718
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 22 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 23 -) (V - -)
<STEP 266>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 21 -) (V - -)
Agent performance: 2728
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 21 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 22 -) (V - -)
<STEP 267>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 20 -) (V - -)
Agent performance: 2738
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 21 -) (V - -)
<STEP 268>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 19 -) (V - -)
Agent performance: 2748
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 19 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 20 -) (V - -)
<STEP 269>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 18 -) (V - -)
Agent performance: 2758
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 18 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 19 -) (V - -)
<STEP 270>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 17 -) (V - -)
Agent performance: 2768
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 18 -) (V - -)
<STEP 271>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 16 -) (V - -)
Agent performance: 2778
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 17 -) (V - -)
<STEP 272>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 15 -) (V - -)
Agent performance: 2788
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 16 -) (V - -)
<STEP 273>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 14 -) (V - -)
Agent performance: 2798
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 14 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 15 -) (V - -)
<STEP 274>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 13 -) (V - -)
Agent performance: 2808
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 14 -) (V - -)
<STEP 275>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 12 -) (V - -)
Agent performance: 2818
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 12 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 13 -) (V - -)
<STEP 276>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 11 -) (V - -)
Agent performance: 2828
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 12 -) (V - -)
<STEP 277>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 10 -) (V - -)
Agent performance: 2838
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 11 -) (V - -)
<STEP 278>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 9 -) (V - -)
Agent performance: 2848
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 10 -) (V - -)
<STEP 279>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 8 -) (V - -)
Agent performance: 2858
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 9 -) (V - -)
<STEP 280>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 7 -) (V - -)
Agent performance: 2868
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 8 -) (V - -)
<STEP 281>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 6 -) (V - -)
Agent performance: 2878
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 7 -) (V - -)
<STEP 282>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 5 -) (V - -)
Agent performance: 2888
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 6 -) (V - -)
<STEP 283>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 4 -) (V - -)
Agent performance: 2898
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 5 -) (V - -)
<STEP 284>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 3 -) (V - -)
Agent performance: 2908
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 4 -) (V - -)
<STEP 285>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 2 -) (V - -)
Agent performance: 2918
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 3 -) (V - -)
<STEP 286>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 1 -) (V - -)
Agent performance: 2928
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 2 -) (V - -)
<STEP 287>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V - -) (V - -)
Agent performance: 2938
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
3 (- 24 -) (- 25 -) (- - -)
4 (- 27 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (? ? ?) (- 27 -) (V 1 -) (V - -)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 26 -) (V - -) (V - -)
Agent performance: 2947
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 26 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 27 -) (V - -) (V - -)
<STEP 289>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 25 -) (V - -) (V - -)
Agent performance: 2957
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 25 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 26 -) (V - -) (V - -)
<STEP 290>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 24 -) (V - -) (V - -)
Agent performance: 2967
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 24 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 25 -) (V - -) (V - -)
<STEP 291>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 23 -) (V - -) (V - -)
Agent performance: 2977
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 23 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 24 -) (V - -) (V - -)
<STEP 292>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 22 -) (V - -) (V - -)
Agent performance: 2987
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 22 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 23 -) (V - -) (V - -)
<STEP 293>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 21 -) (V - -) (V - -)
Agent performance: 2997
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 21 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 22 -) (V - -) (V - -)
<STEP 294>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 20 -) (V - -) (V - -)
Agent performance: 3007
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 21 -) (V - -) (V - -)
<STEP 295>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 19 -) (V - -) (V - -)
Agent performance: 3017
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 19 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 20 -) (V - -) (V - -)
<STEP 296>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 18 -) (V - -) (V - -)
Agent performance: 3027
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 18 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 19 -) (V - -) (V - -)
<STEP 297>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 17 -) (V - -) (V - -)
Agent performance: 3037
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 18 -) (V - -) (V - -)
<STEP 298>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 16 -) (V - -) (V - -)
Agent performance: 3047
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 17 -) (V - -) (V - -)
<STEP 299>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 15 -) (V - -) (V - -)
Agent performance: 3057
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 16 -) (V - -) (V - -)
<STEP 300>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 14 -) (V - -) (V - -)
Agent performance: 3067
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 14 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 15 -) (V - -) (V - -)
<STEP 301>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 13 -) (V - -) (V - -)
Agent performance: 3077
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 14 -) (V - -) (V - -)
<STEP 302>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 12 -) (V - -) (V - -)
Agent performance: 3087
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 12 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 13 -) (V - -) (V - -)
<STEP 303>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 11 -) (V - -) (V - -)
Agent performance: 3097
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 12 -) (V - -) (V - -)
<STEP 304>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 10 -) (V - -) (V - -)
Agent performance: 3107
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 11 -) (V - -) (V - -)
<STEP 305>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 9 -) (V - -) (V - -)
Agent performance: 3117
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 10 -) (V - -) (V - -)
<STEP 306>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 8 -) (V - -) (V - -)
Agent performance: 3127
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 9 -) (V - -) (V - -)
<STEP 307>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 7 -) (V - -) (V - -)
Agent performance: 3137
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 8 -) (V - -) (V - -)
<STEP 308>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 6 -) (V - -) (V - -)
Agent performance: 3147
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 7 -) (V - -) (V - -)
<STEP 309>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 5 -) (V - -) (V - -)
Agent performance: 3157
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 6 -) (V - -) (V - -)
<STEP 310>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 4 -) (V - -) (V - -)
Agent performance: 3167
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 5 -) (V - -) (V - -)
<STEP 311>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 3 -) (V - -) (V - -)
Agent performance: 3177
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 4 -) (V - -) (V - -)
<STEP 312>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 2 -) (V - -) (V - -)
Agent performance: 3187
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 3 -) (V - -) (V - -)
<STEP 313>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 1 -) (V - -) (V - -)
Agent performance: 3197
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 2 -) (V - -) (V - -)
<STEP 314>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V - -) (V - -) (V - -)
Agent performance: 3207
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
3 (- 20 1) (- 24 -) (- 25 -)
4 (- 17 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (? ? ?) (- 17 -) (V 1 -) (V - -) (V - -)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 16 -) (V - -) (V - -) (V - -)
Agent performance: 3216
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 17 -) (V - -) (V - -) (V - -)
<STEP 316>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 15 -) (V - -) (V - -) (V - -)
Agent performance: 3226
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 16 -) (V - -) (V - -) (V - -)
<STEP 317>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 14 -) (V - -) (V - -) (V - -)
Agent performance: 3236
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 14 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 15 -) (V - -) (V - -) (V - -)
<STEP 318>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 13 -) (V - -) (V - -) (V - -)
Agent performance: 3246
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 14 -) (V - -) (V - -) (V - -)
<STEP 319>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 12 -) (V - -) (V - -) (V - -)
Agent performance: 3256
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 12 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 13 -) (V - -) (V - -) (V - -)
<STEP 320>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 11 -) (V - -) (V - -) (V - -)
Agent performance: 3266
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 12 -) (V - -) (V - -) (V - -)
<STEP 321>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 10 -) (V - -) (V - -) (V - -)
Agent performance: 3276
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 11 -) (V - -) (V - -) (V - -)
<STEP 322>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 9 -) (V - -) (V - -) (V - -)
Agent performance: 3286
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 10 -) (V - -) (V - -) (V - -)
<STEP 323>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 8 -) (V - -) (V - -) (V - -)
Agent performance: 3296
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 9 -) (V - -) (V - -) (V - -)
<STEP 324>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 7 -) (V - -) (V - -) (V - -)
Agent performance: 3306
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 8 -) (V - -) (V - -) (V - -)
<STEP 325>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 6 -) (V - -) (V - -) (V - -)
Agent performance: 3316
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 7 -) (V - -) (V - -) (V - -)
<STEP 326>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 5 -) (V - -) (V - -) (V - -)
Agent performance: 3326
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 6 -) (V - -) (V - -) (V - -)
<STEP 327>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 4 -) (V - -) (V - -) (V - -)
Agent performance: 3336
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 5 -) (V - -) (V - -) (V - -)
<STEP 328>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 3 -) (V - -) (V - -) (V - -)
Agent performance: 3346
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 4 -) (V - -) (V - -) (V - -)
<STEP 329>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 2 -) (V - -) (V - -) (V - -)
Agent performance: 3356
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 3 -) (V - -) (V - -) (V - -)
<STEP 330>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 3366
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 2 -) (V - -) (V - -) (V - -)
<STEP 331>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3376
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
3 (- 9 -) (- 20 1) (- 24 -)
4 (- 18 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 1 -) (V - -) (V - -) (V - -)
<STEP 332>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 17 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3385
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (L 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 18 -) (V - -) (V - -) (V - -) (V - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 16 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3394
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 17 -) (V - -) (V - -) (V - -) (V - -)
<STEP 334>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 15 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3404
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 16 -) (V - -) (V - -) (V - -) (V - -)
<STEP 335>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 14 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3414
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 14 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 15 -) (V - -) (V - -) (V - -) (V - -)
<STEP 336>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 13 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3424
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 14 -) (V - -) (V - -) (V - -) (V - -)
<STEP 337>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 12 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3434
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 12 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 13 -) (V - -) (V - -) (V - -) (V - -)
<STEP 338>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 11 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3444
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 12 -) (V - -) (V - -) (V - -) (V - -)
<STEP 339>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 10 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3454
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 11 -) (V - -) (V - -) (V - -) (V - -)
<STEP 340>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 9 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3464
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 10 -) (V - -) (V - -) (V - -) (V - -)
<STEP 341>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 8 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3474
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 9 -) (V - -) (V - -) (V - -) (V - -)
<STEP 342>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 7 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3484
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 8 -) (V - -) (V - -) (V - -) (V - -)
<STEP 343>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 6 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3494
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 7 -) (V - -) (V - -) (V - -) (V - -)
<STEP 344>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 5 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3504
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 6 -) (V - -) (V - -) (V - -) (V - -)
<STEP 345>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 4 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3514
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 5 -) (V - -) (V - -) (V - -) (V - -)
<STEP 346>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 3 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3524
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 4 -) (V - -) (V - -) (V - -) (V - -)
<STEP 347>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3534
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 3 -) (V - -) (V - -) (V - -) (V - -)
<STEP 348>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3544
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - -)
<STEP 349>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3554
PERCEPT
0 1
(A G T) (A G T)
3 (- 9 -) (- 20 1)
4 (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - -)
<STEP 350>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3563
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U 8 -) (- 20 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 351>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3573
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U 7 -) (- 20 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 352>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3583
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U 6 -) (- 20 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 353>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3593
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U 5 -) (- 20 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 354>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3603
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U 4 -) (- 20 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 355>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3613
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U 3 -) (- 20 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 356>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3623
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U 2 -) (- 20 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 357>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3633
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U 1 -) (- 20 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 358>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3643
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (U - -) (- 20 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 359>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3642
PERCEPT
0 1
(A G T) (A G T)
2 (- - -) (- - -)
3 (R - -) (- 20 1)
4 (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 360>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3646
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 19 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 361>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3656
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 18 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 362>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3666
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 17 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 363>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3676
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 16 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 364>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3686
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 15 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 365>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3696
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 14 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 366>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3706
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 13 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 367>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 12 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3716
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 12 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 368>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 11 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3726
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 11 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 12 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 369>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 10 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3736
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 10 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 11 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 370>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 9 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3746
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 9 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 10 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 371>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 8 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3756
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 8 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 9 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 372>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 7 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3766
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 7 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 8 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 373>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 6 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3776
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 6 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 7 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 374>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 5 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3786
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 5 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 6 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 375>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 4 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3796
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 4 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 5 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 376>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 3 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3806
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 3 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 4 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 377>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 2 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3816
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 2 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 3 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 378>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 1 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3826
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R 1 -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 2 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 379>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3836
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- - -)
3 (- - -) (R - -) (- 24 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 1 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 380>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 23 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3845
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 23 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 381>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 22 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3855
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 22 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 23 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 382>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 21 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3865
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 21 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 22 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 383>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 20 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3875
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 20 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 21 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 384>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 19 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3885
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 19 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 20 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 385>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 18 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3895
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 18 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 19 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 386>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 17 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3905
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 17 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 18 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 387>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 16 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3915
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 16 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 17 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 388>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 15 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3925
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 15 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 16 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 389>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 14 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3935
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 14 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 15 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 390>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 13 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3945
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 13 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 14 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 391>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 12 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3955
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 12 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 13 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 392>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 11 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3965
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 11 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 12 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 393>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 10 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3975
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 10 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 11 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 394>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 9 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3985
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 9 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 10 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 395>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 8 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3995
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 8 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 9 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 396>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 7 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4005
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 7 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 8 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 397>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 6 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4015
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 6 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 7 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 398>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 5 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4025
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 5 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 6 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 399>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 4 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4035
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 4 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 5 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 400>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 3 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4045
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 3 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 4 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 401>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 2 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4055
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 2 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 3 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 402>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 1 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4065
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R 1 -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 2 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 403>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4075
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
2 (- - -) (- - -) (- 22 -)
3 (- - -) (R - -) (- 25 -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 1 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 404>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 24 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4084
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 24 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 405>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 23 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4094
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 23 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 24 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 406>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 22 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4104
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 22 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 23 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 407>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 21 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4114
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 21 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 22 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 408>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4124
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 20 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 21 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 409>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 19 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4134
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 19 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 410>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 18 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4144
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 18 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 19 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 411>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 17 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4154
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 17 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 18 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 412>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 16 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4164
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 16 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 17 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 413>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 15 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4174
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 15 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 16 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 414>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 14 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4184
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 14 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 15 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 415>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 13 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4194
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 13 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 14 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 416>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 12 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4204
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 12 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 13 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 417>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 11 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4214
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 11 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 12 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 418>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 10 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4224
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 10 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 11 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 419>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 9 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4234
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 9 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 10 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 420>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 8 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4244
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 8 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 9 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 421>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 7 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4254
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 7 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 8 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 422>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 6 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4264
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 6 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 7 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 423>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 5 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4274
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 5 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 6 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 424>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4284
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 4 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 5 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 425>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4294
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 3 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 426>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4304
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 2 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 427>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4314
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R 1 -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 428>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4324
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (R - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 429>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4323
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 430>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4322
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 431>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4321
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
2 (- - -) (- 22 -) (- - -)
3 (- - -) (U - -) (- - -)
4 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 432>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 21 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4330
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 21 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 433>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 20 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4340
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 20 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 21 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 434>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 19 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4350
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 19 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 20 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 435>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 18 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4360
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 18 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 19 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 436>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 17 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4370
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 17 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 18 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 437>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 16 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4380
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 16 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 17 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 438>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 15 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4390
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 15 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 16 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 439>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 14 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4400
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 14 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 15 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 440>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 13 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4410
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 13 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 14 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 441>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 12 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4420
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 12 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 13 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 442>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 11 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4430
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 11 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 12 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 443>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4440
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 10 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 11 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 444>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 9 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4450
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 9 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 445>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 8 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4460
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 8 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 9 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 446>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 7 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4470
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 7 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 8 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 447>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 6 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4480
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 6 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 7 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 448>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4490
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 5 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 6 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 449>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 4 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4500
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 4 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 450>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4510
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 3 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 4 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 451>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4520
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 2 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 452>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4530
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U 1 -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 453>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4540
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
1 (- 15 1) (- 17 -) (- - -)
2 (- - -) (U - -) (- - -)
3 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 454>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 16 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4549
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 16 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 455>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 15 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4559
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 15 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 16 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 456>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 14 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4569
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 14 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 15 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 457>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 13 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4579
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 13 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 14 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 458>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 12 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4589
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 12 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 13 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 459>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 11 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4599
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 11 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 12 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 460>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 10 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4609
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 10 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 11 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 461>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 9 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4619
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 9 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 10 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 462>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 8 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4629
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 8 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 9 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 463>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 7 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4639
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 7 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 8 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 464>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 6 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4649
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 6 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 7 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 465>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4659
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 5 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 6 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 466>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 4 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4669
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 4 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 467>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4679
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 3 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 4 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 468>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4689
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 2 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 469>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4699
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U 1 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 470>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4709
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (U - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 471>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4708
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (R - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 472>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4707
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (D - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 473>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4706
PERCEPT
2 3 4
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 15 1) (L - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 474>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 14 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4710
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 14 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 475>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 13 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4720
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 13 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 14 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 476>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 12 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4730
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 12 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 13 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 477>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 11 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4740
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 11 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 12 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 478>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 10 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4750
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 10 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 11 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 479>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 9 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4760
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 9 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 10 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 480>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 8 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4770
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 8 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 9 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 481>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 7 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4780
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 7 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 8 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 482>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 6 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4790
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 6 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 7 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 483>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 5 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4800
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 5 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 6 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 484>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 4 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4810
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 4 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 5 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 485>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4820
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 3 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 4 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 486>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4830
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 2 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 487>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4840
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L 1 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 488>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4850
PERCEPT
1 2 3
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- 19 -) (L - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 489>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 18 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4859
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 18 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 19 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 490>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 17 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4869
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 17 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 18 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 491>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 16 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4879
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 16 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 17 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 492>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 15 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4889
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 15 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 16 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 493>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 14 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4899
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 14 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 15 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 494>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 13 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4909
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 13 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 14 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 495>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 12 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4919
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 12 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 13 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 496>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 11 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4929
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 11 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 12 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 497>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 10 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4939
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 10 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 11 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 498>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 9 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4949
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 9 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 10 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 499>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 8 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4959
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 8 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 9 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 500>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 7 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4969
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 7 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 8 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 501>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 6 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4979
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 6 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 7 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 502>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 5 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4989
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 5 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 6 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 503>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 4 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4999
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 4 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 5 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 504>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5009
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 3 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 4 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 505>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 2 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5019
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 2 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 506>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5029
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L 1 -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 2 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 507>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5039
PERCEPT
0 1 2
(A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -)
2 (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STARTING>
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 25 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (L 25 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 25 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 15 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 15 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 15 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 14 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (R 20 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (V 20 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (R 24 -) (- 19 -) (- 19 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (V 24 -) (- 19 -) (- 19 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (R 18 -) (- 19 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (V 18 -) (- 19 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 18 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (R 18 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (V 18 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (D 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (V 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (D 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (D 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 20 -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (D 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 20 -)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 19 -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 19 -)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (V 28 -) (V 19 -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (L 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (V 28 -) (- 19 -)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 18 -) (- 17 -) (L 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 18 -) (- 17 -) (V 26 -) (- 28 -) (- 19 -)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 18 -) (L 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 18 -) (V 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 17 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (L 17 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (V 17 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (U 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (V 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 24 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (U 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 24 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (U 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 17 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (V 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (U 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 14 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 13 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 13 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 13 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 20 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 318
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 12 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (- 20 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 24 -) (V 18 -) (V 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 325
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (R 19 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (V 19 -) (- 24 -) (- 18 -) (- 17 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 18 -) (V 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 332
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (R 23 -) (- 18 -) (- 17 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (V 23 -) (- 18 -) (- 17 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 17 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 339
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (R 17 -) (- 17 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (V 17 -) (- 17 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 16 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 346
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (R 16 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (V 16 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 355
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (D 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (V 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 13 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 20 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 362
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (D 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 20 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 369
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (D 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (V 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 19 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 19 -)
Agent performance: 376
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (D 18 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (- 19 -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 18 -)
Agent performance: 383
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (D 18 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (V 18 -)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 28 -) (V 17 -)
Agent performance: 392
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (L 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 16 -) (- 16 -) (- 26 -) (- 28 -) (V 17 -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 16 -) (V 16 -) (V 26 -) (V 27 -) (V 17 -)
Agent performance: 399
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 16 -) (- 16 -) (- 26 -) (L 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 16 -) (- 16 -) (- 26 -) (V 27 -) (- 17 -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 16 -) (V 16 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 406
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 16 -) (- 16 -) (L 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 16 -) (- 16 -) (V 25 -) (- 27 -) (- 17 -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 16 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 413
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 16 -) (L 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 16 -) (V 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 15 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 420
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (L 15 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (V 15 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 429
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (U 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 8 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (V 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 23 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 436
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (U 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 23 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 443
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (U 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 16 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (V 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 450
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (U 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 12 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 457
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 11 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 19 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 466
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 10 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (- 19 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 23 -) (V 17 -) (V 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 473
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (R 18 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (V 18 -) (- 23 -) (- 17 -) (- 15 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 17 -) (V 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 480
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (R 22 -) (- 17 -) (- 15 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (V 22 -) (- 17 -) (- 15 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 15 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 487
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (R 16 -) (- 15 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (V 16 -) (- 15 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 14 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 494
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (R 14 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (V 14 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 503
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (D 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (V 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 12 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 19 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 510
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (D 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 19 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 517
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (D 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (V 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 18 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 17 -)
Agent performance: 524
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (D 17 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (- 17 -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 16 -)
Agent performance: 531
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (D 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (V 16 -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 27 -) (V 15 -)
Agent performance: 540
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (L 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 14 -) (- 15 -) (- 25 -) (- 27 -) (V 15 -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 14 -) (V 15 -) (V 25 -) (V 26 -) (V 15 -)
Agent performance: 547
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 14 -) (- 15 -) (- 25 -) (L 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 14 -) (- 15 -) (- 25 -) (V 26 -) (- 15 -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 14 -) (V 15 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 554
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 14 -) (- 15 -) (L 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 14 -) (- 15 -) (V 24 -) (- 26 -) (- 15 -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 14 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 561
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 14 -) (L 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 14 -) (V 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 13 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 568
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (L 13 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (V 13 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 577
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (U 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 7 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (V 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 22 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 584
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (U 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 22 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 591
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (U 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 15 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (V 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 598
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (U 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 10 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 605
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 9 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 18 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 614
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 8 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (- 18 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 22 -) (V 16 -) (V 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 621
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (R 17 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (V 17 -) (- 22 -) (- 16 -) (- 13 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 16 -) (V 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 628
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (R 21 -) (- 16 -) (- 13 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (V 21 -) (- 16 -) (- 13 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 13 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 635
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (R 15 -) (- 13 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (V 15 -) (- 13 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 12 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 642
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (R 12 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (V 12 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 651
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (D 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (V 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 11 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 18 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (D 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 18 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 665
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (D 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (V 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 17 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 15 -)
Agent performance: 672
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (D 16 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (- 15 -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 14 -)
Agent performance: 679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (D 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (V 14 -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 26 -) (V 13 -)
Agent performance: 688
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (L 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 12 -) (- 14 -) (- 24 -) (- 26 -) (V 13 -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 12 -) (V 14 -) (V 24 -) (V 25 -) (V 13 -)
Agent performance: 695
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 12 -) (- 14 -) (- 24 -) (L 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 12 -) (- 14 -) (- 24 -) (V 25 -) (- 13 -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 12 -) (V 14 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 702
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 12 -) (- 14 -) (L 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 12 -) (- 14 -) (V 23 -) (- 25 -) (- 13 -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 12 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 709
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 12 -) (L 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 12 -) (V 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 11 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 716
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (L 11 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (V 11 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 81>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 725
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (U 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 6 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (V 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 21 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 732
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (U 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 21 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 739
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (U 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 14 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (V 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 746
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (U 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 8 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 753
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 7 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 86>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 17 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 762
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 6 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (- 17 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 21 -) (V 15 -) (V 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 769
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (R 16 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (V 16 -) (- 21 -) (- 15 -) (- 11 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 15 -) (V 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 776
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (R 20 -) (- 15 -) (- 11 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (V 20 -) (- 15 -) (- 11 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 11 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 783
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (R 14 -) (- 11 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (V 14 -) (- 11 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 10 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 790
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (R 10 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (V 10 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 799
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (D 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (V 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 10 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 17 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 806
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (D 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 17 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 813
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (D 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (V 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 16 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 13 -)
Agent performance: 820
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (D 15 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (- 13 -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 12 -)
Agent performance: 827
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (D 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (V 12 -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 25 -) (V 11 -)
Agent performance: 836
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (L 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 10 -) (- 13 -) (- 23 -) (- 25 -) (V 11 -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 10 -) (V 13 -) (V 23 -) (V 24 -) (V 11 -)
Agent performance: 843
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 10 -) (- 13 -) (- 23 -) (L 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 10 -) (- 13 -) (- 23 -) (V 24 -) (- 11 -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 10 -) (V 13 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 850
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 10 -) (- 13 -) (L 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 10 -) (- 13 -) (V 22 -) (- 24 -) (- 11 -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 10 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 857
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 10 -) (L 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 10 -) (V 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 9 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 864
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (L 9 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (V 9 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 873
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (U 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 5 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (V 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 20 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 880
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (U 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 20 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 887
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (U 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 13 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (V 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 894
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (U 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 901
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 106>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 16 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 910
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 16 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 20 -) (V 14 -) (V 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 917
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (R 15 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (V 15 -) (- 20 -) (- 14 -) (- 9 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 14 -) (V 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 924
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (R 19 -) (- 14 -) (- 9 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (V 19 -) (- 14 -) (- 9 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 9 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 931
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (R 13 -) (- 9 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (V 13 -) (- 9 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 8 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 938
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (R 8 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (V 8 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 947
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (D 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (V 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 9 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 16 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 954
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (D 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 16 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 961
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (D 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (V 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 15 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 11 -)
Agent performance: 968
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (D 14 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (- 11 -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 10 -)
Agent performance: 975
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (D 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (V 10 -)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 24 -) (V 9 -)
Agent performance: 984
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (L 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 8 -) (- 12 -) (- 22 -) (- 24 -) (V 9 -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 8 -) (V 12 -) (V 22 -) (V 23 -) (V 9 -)
Agent performance: 991
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 8 -) (- 12 -) (- 22 -) (L 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 8 -) (- 12 -) (- 22 -) (V 23 -) (- 9 -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 8 -) (V 12 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 998
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 8 -) (- 12 -) (L 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 8 -) (- 12 -) (V 21 -) (- 23 -) (- 9 -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 8 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1005
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 8 -) (L 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 8 -) (V 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 7 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1012
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (L 7 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (V 7 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 121>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1021
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (U 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 4 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (V 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 19 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1028
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (U 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 19 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1035
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (U 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 12 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (V 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1042
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (U 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1049
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 15 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1058
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 15 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 19 -) (V 13 -) (V 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1065
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (R 14 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (V 14 -) (- 19 -) (- 13 -) (- 7 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 13 -) (V 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1072
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (R 18 -) (- 13 -) (- 7 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (V 18 -) (- 13 -) (- 7 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 7 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1079
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (R 12 -) (- 7 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (V 12 -) (- 7 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 6 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1086
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (R 6 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (V 6 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1095
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (D 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (V 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 8 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 15 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (D 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 15 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (D 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (V 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 14 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 9 -)
Agent performance: 1116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (D 13 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (- 9 -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 8 -)
Agent performance: 1123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (D 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (V 8 -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 23 -) (V 7 -)
Agent performance: 1132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (L 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 6 -) (- 11 -) (- 21 -) (- 23 -) (V 7 -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 6 -) (V 11 -) (V 21 -) (V 22 -) (V 7 -)
Agent performance: 1139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 6 -) (- 11 -) (- 21 -) (L 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 6 -) (- 11 -) (- 21 -) (V 22 -) (- 7 -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 6 -) (V 11 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 6 -) (- 11 -) (L 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 6 -) (- 11 -) (V 20 -) (- 22 -) (- 7 -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 6 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 6 -) (L 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 6 -) (V 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 5 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (L 5 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (V 5 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (U 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 3 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (V 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 18 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (U 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 18 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (U 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 11 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (V 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (U 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 14 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 14 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 18 -) (V 12 -) (V 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 13 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 13 -) (- 18 -) (- 12 -) (- 5 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 12 -) (V 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (R 17 -) (- 12 -) (- 5 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (V 17 -) (- 12 -) (- 5 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 5 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (R 11 -) (- 5 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (V 11 -) (- 5 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 4 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (R 4 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (V 4 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (D 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (V 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 7 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 14 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (D 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 14 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (D 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (V 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 13 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 7 -)
Agent performance: 1264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (D 12 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (- 7 -)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 6 -)
Agent performance: 1271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (D 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (V 6 -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 22 -) (V 5 -)
Agent performance: 1280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (L 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 4 -) (- 10 -) (- 20 -) (- 22 -) (V 5 -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 4 -) (V 10 -) (V 20 -) (V 21 -) (V 5 -)
Agent performance: 1287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 4 -) (- 10 -) (- 20 -) (L 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 4 -) (- 10 -) (- 20 -) (V 21 -) (- 5 -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 4 -) (V 10 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 4 -) (- 10 -) (L 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 4 -) (- 10 -) (V 19 -) (- 21 -) (- 5 -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 4 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 4 -) (L 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 4 -) (V 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 3 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (L 3 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (V 3 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1317
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (U 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 2 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (V 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 17 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1324
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (U 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 17 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1331
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (U 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 10 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (V 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1338
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (U 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1335
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1334
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 13 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 17 -) (V 11 -) (V 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1341
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 12 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 12 -) (- 17 -) (- 11 -) (- 3 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 11 -) (V 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1348
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (R 16 -) (- 11 -) (- 3 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (V 16 -) (- 11 -) (- 3 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 3 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1355
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (R 10 -) (- 3 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (V 10 -) (- 3 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 2 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1362
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (R 2 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (V 2 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1371
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (D 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (V 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 6 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 13 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1378
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (D 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 13 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1385
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (D 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (V 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 12 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 5 -)
Agent performance: 1392
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (D 11 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (- 5 -)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 4 -)
Agent performance: 1399
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (D 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (V 4 -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 21 -) (V 3 -)
Agent performance: 1408
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (L 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- 2 -) (- 9 -) (- 19 -) (- 21 -) (V 3 -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 2 -) (V 9 -) (V 19 -) (V 20 -) (V 3 -)
Agent performance: 1415
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- 2 -) (- 9 -) (- 19 -) (L 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- 2 -) (- 9 -) (- 19 -) (V 20 -) (- 3 -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 2 -) (V 9 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1422
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- 2 -) (- 9 -) (L 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- 2 -) (- 9 -) (V 18 -) (- 20 -) (- 3 -)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 2 -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1429
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- 2 -) (L 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- 2 -) (V 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V 1 -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1436
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (L 1 -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (V 1 -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1445
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (U - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- 1 -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (V - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 16 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1452
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (U - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 16 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1459
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (U 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 9 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (V 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 184>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1466
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (U 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1463
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1462
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 12 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 16 -) (V 10 -) (V 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1469
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 11 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 11 -) (- 16 -) (- 10 -) (- 1 -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 10 -) (V 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1476
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (R 15 -) (- 10 -) (- 1 -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (V 15 -) (- 10 -) (- 1 -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V 1 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1483
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (R 9 -) (- 1 -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (V 9 -) (- 1 -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1490
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (R - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (V - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1489
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (D - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (V - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 5 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 12 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1496
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (D 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 12 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1503
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (D 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (V 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 11 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 3 -)
Agent performance: 1510
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (D 10 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (- 3 -)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 2 -)
Agent performance: 1517
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (D 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (V 2 -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 8 -) (V 18 -) (V 20 -) (V 1 -)
Agent performance: 1526
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 8 -) (- 18 -) (- 20 -) (V 1 -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 8 -) (V 18 -) (V 19 -) (V 1 -)
Agent performance: 1533
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 8 -) (- 18 -) (L 19 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 8 -) (- 18 -) (V 19 -) (- 1 -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 8 -) (V 17 -) (V 19 -) (V 1 -)
Agent performance: 1540
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 8 -) (L 17 -) (- 19 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 8 -) (V 17 -) (- 19 -) (- 1 -)
<STEP 199>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 7 -) (V 17 -) (V 19 -) (V 1 -)
Agent performance: 1547
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (L 7 -) (- 17 -) (- 19 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (V 7 -) (- 17 -) (- 19 -) (- 1 -)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 7 -) (V 17 -) (V 19 -) (V 1 -)
Agent performance: 1544
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (L - -) (- 7 -) (- 17 -) (- 19 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (V - -) (- 7 -) (- 17 -) (- 19 -) (- 1 -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 7 -) (V 17 -) (V 19 -) (V 1 -)
Agent performance: 1543
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (U - -) (- 7 -) (- 17 -) (- 19 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (V - -) (- 7 -) (- 17 -) (- 19 -) (- 1 -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 7 -) (V 17 -) (V 19 -) (V 1 -)
Agent performance: 1542
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (R - -) (- 7 -) (- 17 -) (- 19 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (V - -) (- 7 -) (- 17 -) (- 19 -) (- 1 -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 17 -) (V 19 -) (V 1 -)
Agent performance: 1549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (R 6 -) (- 17 -) (- 19 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (V 6 -) (- 17 -) (- 19 -) (- 1 -)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 16 -) (V 19 -) (V 1 -)
Agent performance: 1556
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (R 16 -) (- 19 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (V 16 -) (- 19 -) (- 1 -)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 16 -) (V 18 -) (V 1 -)
Agent performance: 1563
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (- 16 -) (R 18 -) (- 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (- 16 -) (V 18 -) (- 1 -)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 16 -) (V 18 -) (V - -)
Agent performance: 1570
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (- 16 -) (- 18 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (- 16 -) (- 18 -) (V - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 16 -) (V 18 -) (V - -)
Agent performance: 1569
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (- 16 -) (- 18 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (- 16 -) (- 18 -) (V - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 16 -) (V 18 -) (V - -)
Agent performance: 1568
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (- 16 -) (- 18 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (- 16 -) (- 18 -) (V - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 16 -) (V 17 -) (V - -)
Agent performance: 1575
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (- 16 -) (L 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (- 16 -) (V 17 -) (- - -)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 6 -) (V 15 -) (V 17 -) (V - -)
Agent performance: 1582
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (L 15 -) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 6 -) (V 15 -) (- 17 -) (- - -)
<STEP 211>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 5 -) (V 15 -) (V 17 -) (V - -)
Agent performance: 1589
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (L 5 -) (- 15 -) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (V 5 -) (- 15 -) (- 17 -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 5 -) (V 15 -) (V 17 -) (V - -)
Agent performance: 1586
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (L - -) (- 5 -) (- 15 -) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (V - -) (- 5 -) (- 15 -) (- 17 -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 5 -) (V 15 -) (V 17 -) (V - -)
Agent performance: 1585
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (U - -) (- 5 -) (- 15 -) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (V - -) (- 5 -) (- 15 -) (- 17 -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 5 -) (V 15 -) (V 17 -) (V - -)
Agent performance: 1584
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (R - -) (- 5 -) (- 15 -) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (V - -) (- 5 -) (- 15 -) (- 17 -) (- - -)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 15 -) (V 17 -) (V - -)
Agent performance: 1591
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (R 4 -) (- 15 -) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (V 4 -) (- 15 -) (- 17 -) (- - -)
<STEP 216>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 14 -) (V 17 -) (V - -)
Agent performance: 1598
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (R 14 -) (- 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (V 14 -) (- 17 -) (- - -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 14 -) (V 16 -) (V - -)
Agent performance: 1605
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (- 14 -) (R 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (- 14 -) (V 16 -) (- - -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 14 -) (V 16 -) (V - -)
Agent performance: 1602
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (- 14 -) (- 16 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (- 14 -) (- 16 -) (V - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 14 -) (V 16 -) (V - -)
Agent performance: 1601
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (- 14 -) (- 16 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (- 14 -) (- 16 -) (V - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 14 -) (V 16 -) (V - -)
Agent performance: 1600
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (- 14 -) (- 16 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (- 14 -) (- 16 -) (V - -)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 14 -) (V 15 -) (V - -)
Agent performance: 1607
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (- 14 -) (L 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (- 14 -) (V 15 -) (- - -)
<STEP 222>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 4 -) (V 13 -) (V 15 -) (V - -)
Agent performance: 1614
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (L 13 -) (- 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 4 -) (V 13 -) (- 15 -) (- - -)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 3 -) (V 13 -) (V 15 -) (V - -)
Agent performance: 1621
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (L 3 -) (- 13 -) (- 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (V 3 -) (- 13 -) (- 15 -) (- - -)
<STEP 224>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 3 -) (V 13 -) (V 15 -) (V - -)
Agent performance: 1618
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (L - -) (- 3 -) (- 13 -) (- 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (V - -) (- 3 -) (- 13 -) (- 15 -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 3 -) (V 13 -) (V 15 -) (V - -)
Agent performance: 1617
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (U - -) (- 3 -) (- 13 -) (- 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (V - -) (- 3 -) (- 13 -) (- 15 -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 3 -) (V 13 -) (V 15 -) (V - -)
Agent performance: 1616
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (R - -) (- 3 -) (- 13 -) (- 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (V - -) (- 3 -) (- 13 -) (- 15 -) (- - -)
<STEP 227>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 13 -) (V 15 -) (V - -)
Agent performance: 1623
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (R 2 -) (- 13 -) (- 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (V 2 -) (- 13 -) (- 15 -) (- - -)
<STEP 228>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 12 -) (V 15 -) (V - -)
Agent performance: 1630
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (R 12 -) (- 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (V 12 -) (- 15 -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 12 -) (V 14 -) (V - -)
Agent performance: 1637
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (- 12 -) (R 14 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (- 12 -) (V 14 -) (- - -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 12 -) (V 14 -) (V - -)
Agent performance: 1634
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (- 12 -) (- 14 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (- 12 -) (- 14 -) (V - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 12 -) (V 14 -) (V - -)
Agent performance: 1633
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (- 12 -) (- 14 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (- 12 -) (- 14 -) (V - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 12 -) (V 14 -) (V - -)
Agent performance: 1632
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (- 12 -) (- 14 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (- 12 -) (- 14 -) (V - -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 12 -) (V 13 -) (V - -)
Agent performance: 1639
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (- 12 -) (L 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (- 12 -) (V 13 -) (- - -)
<STEP 234>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 2 -) (V 11 -) (V 13 -) (V - -)
Agent performance: 1646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (L 11 -) (- 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- 2 -) (V 11 -) (- 13 -) (- - -)
<STEP 235>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 1 -) (V 11 -) (V 13 -) (V - -)
Agent performance: 1653
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (L 1 -) (- 11 -) (- 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (V 1 -) (- 11 -) (- 13 -) (- - -)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 1 -) (V 11 -) (V 13 -) (V - -)
Agent performance: 1650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (L - -) (- 1 -) (- 11 -) (- 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (V - -) (- 1 -) (- 11 -) (- 13 -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 1 -) (V 11 -) (V 13 -) (V - -)
Agent performance: 1649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (U - -) (- 1 -) (- 11 -) (- 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (V - -) (- 1 -) (- 11 -) (- 13 -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V 1 -) (V 11 -) (V 13 -) (V - -)
Agent performance: 1648
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (R - -) (- 1 -) (- 11 -) (- 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (V - -) (- 1 -) (- 11 -) (- 13 -) (- - -)
<STEP 239>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 11 -) (V 13 -) (V - -)
Agent performance: 1655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (R - -) (- 11 -) (- 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (V - -) (- 11 -) (- 13 -) (- - -)
<STEP 240>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 10 -) (V 13 -) (V - -)
Agent performance: 1662
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (R 10 -) (- 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (V 10 -) (- 13 -) (- - -)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 10 -) (V 12 -) (V - -)
Agent performance: 1669
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 10 -) (R 12 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 10 -) (V 12 -) (- - -)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 10 -) (V 12 -) (V - -)
Agent performance: 1666
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 10 -) (- 12 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 10 -) (- 12 -) (V - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 10 -) (V 12 -) (V - -)
Agent performance: 1665
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 10 -) (- 12 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 10 -) (- 12 -) (V - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 10 -) (V 12 -) (V - -)
Agent performance: 1664
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 10 -) (- 12 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 10 -) (- 12 -) (V - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 10 -) (V 11 -) (V - -)
Agent performance: 1671
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 10 -) (L 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 10 -) (V 11 -) (- - -)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (L 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (V 9 -) (- 11 -) (- - -)
<STEP 247>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1675
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (L - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (V - -) (- 9 -) (- 11 -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (U - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 20 1) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (V - -) (- 9 -) (- 11 -) (- - -)
<STEP 249>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 16 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (U 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 16 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (V 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
<STEP 250>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1685
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (U 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 19 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (V 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1694
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (U 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 11 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (V 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 10 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1701
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U 10 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 10 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 15 -) (V 9 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1710
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 9 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 9 -) (- 15 -) (- 9 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
<STEP 254>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 9 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1717
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (R 14 -) (- 9 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (V 14 -) (- 9 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
<STEP 255>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1724
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (R 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (V 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1721
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (R - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (V - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 4 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1720
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (D - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (V - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 4 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
<STEP 258>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 11 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1727
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (D 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 11 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
<STEP 259>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 10 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1734
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (D 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (V 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 10 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1741
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (D 9 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (- - -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1738
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (V - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 9 -) (V 11 -) (V - -)
Agent performance: 1737
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 9 -) (- 11 -) (V - -)
<STEP 263>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 9 -) (V 10 -) (V - -)
Agent performance: 1744
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 9 -) (L 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 9 -) (V 10 -) (- - -)
<STEP 264>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1751
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (L 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (V 8 -) (- 10 -) (- - -)
<STEP 265>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1748
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (L - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (V - -) (- 8 -) (- 10 -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1747
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (U - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 19 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (V - -) (- 8 -) (- 10 -) (- - -)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 15 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1754
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (U 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 15 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (V 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 18 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1761
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (U 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 18 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (V 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1768
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (U 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 9 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (V 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1775
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U 8 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 8 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 14 -) (V 8 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1784
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 7 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 7 -) (- 14 -) (- 8 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 8 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1791
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (R 13 -) (- 8 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (V 13 -) (- 8 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1798
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (R 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (V 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
<STEP 274>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1795
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (R - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (V - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 3 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1794
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (D - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (V - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 3 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 10 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1801
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (D 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 10 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 9 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1808
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (D 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (V 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 9 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
<STEP 278>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1815
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (D 8 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (- - -)
<STEP 279>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1812
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (V - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 8 -) (V 10 -) (V - -)
Agent performance: 1811
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 8 -) (- 10 -) (V - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 8 -) (V 9 -) (V - -)
Agent performance: 1818
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 8 -) (L 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 8 -) (V 9 -) (- - -)
<STEP 282>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1825
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (L 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (V 7 -) (- 9 -) (- - -)
<STEP 283>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1822
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (L - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (V - -) (- 7 -) (- 9 -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1821
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (U - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 18 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (V - -) (- 7 -) (- 9 -) (- - -)
<STEP 285>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 14 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1828
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (U 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 14 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (V 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
<STEP 286>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 17 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1835
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (U 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 17 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (V 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1842
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (U 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 7 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (V 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1849
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U 6 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 6 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 13 -) (V 7 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1858
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 5 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 5 -) (- 13 -) (- 7 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 7 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1865
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (R 12 -) (- 7 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (V 12 -) (- 7 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
<STEP 291>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1872
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (R 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (V 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1869
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (R - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (V - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 2 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1868
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (D - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (V - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 2 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
<STEP 294>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 9 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1875
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (D 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 9 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
<STEP 295>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 8 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1882
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (D 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (V 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 8 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
<STEP 296>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1889
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (D 7 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (- - -)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1886
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (V - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 7 -) (V 9 -) (V - -)
Agent performance: 1885
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 7 -) (- 9 -) (V - -)
<STEP 299>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 7 -) (V 8 -) (V - -)
Agent performance: 1892
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 7 -) (L 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 7 -) (V 8 -) (- - -)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1899
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (L 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (V 6 -) (- 8 -) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1896
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (L - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (V - -) (- 6 -) (- 8 -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1895
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (U - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 17 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (V - -) (- 6 -) (- 8 -) (- - -)
<STEP 303>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 13 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1902
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (U 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 13 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (V 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
<STEP 304>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 16 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1909
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (U 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 16 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (V 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1916
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (U 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 5 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (V 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
<STEP 306>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1923
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U 4 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 4 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 12 -) (V 6 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1932
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 3 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 3 -) (- 12 -) (- 6 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
<STEP 308>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 6 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1939
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (R 11 -) (- 6 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (V 11 -) (- 6 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
<STEP 309>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1946
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (R 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (V 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1943
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (R - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (V - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V 1 -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1942
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (D - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (V - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- 1 -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 8 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1949
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (D - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (V - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 8 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
<STEP 313>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 7 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1956
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (D 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (V 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 7 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
<STEP 314>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1963
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (D 6 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (- - -)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1960
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (V - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 6 -) (V 8 -) (V - -)
Agent performance: 1959
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 6 -) (- 8 -) (V - -)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 6 -) (V 7 -) (V - -)
Agent performance: 1966
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 6 -) (L 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 6 -) (V 7 -) (- - -)
<STEP 318>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1973
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (L 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (V 5 -) (- 7 -) (- - -)
<STEP 319>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1970
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (L - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (V - -) (- 5 -) (- 7 -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1969
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (U - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 16 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (V - -) (- 5 -) (- 7 -) (- - -)
<STEP 321>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 12 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1976
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (U 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 12 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (V 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 322>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 15 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1983
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (U 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 15 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (V 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 323>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1990
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (U 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 3 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (V 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 324>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 1997
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U 2 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 2 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 11 -) (V 5 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2006
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V 1 -) (- 11 -) (- 5 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 326>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 10 -) (V 5 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2013
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (R 10 -) (- 5 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (V 10 -) (- 5 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 327>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 10 -) (V 4 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2020
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- 10 -) (R 4 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- 10 -) (V 4 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 328>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 10 -) (V 4 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2017
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- 10 -) (- 4 -) (R - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- 10 -) (- 4 -) (V - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 10 -) (V 4 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2016
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- 10 -) (- 4 -) (D - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- 10 -) (- 4 -) (V - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 10 -) (V 4 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2015
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- 10 -) (- 4 -) (L - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- 10 -) (- 4 -) (V - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 331>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 10 -) (V 3 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2022
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- 10 -) (L 3 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (- 10 -) (V 3 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 332>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (V 9 -) (V 3 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2029
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (L 9 -) (- 3 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- 1 -) (V 9 -) (- 3 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 333>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 9 -) (V 3 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2036
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- 9 -) (- 3 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 9 -) (- 3 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 334>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 9 -) (V 3 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2035
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- 9 -) (- 3 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 9 -) (- 3 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 335>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 9 -) (V 3 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2034
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 9 -) (- 3 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 9 -) (- 3 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 336>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 3 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2041
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 8 -) (- 3 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V 8 -) (- 3 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 337>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2048
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (R 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (V 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 338>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2045
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (R - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (V - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 339>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2044
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (D - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (V - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 340>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 7 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2041
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (D - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (V - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 7 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 341>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 6 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2048
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (D 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (V 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 6 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 342>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2055
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (D 5 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (V 5 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (- - -)
<STEP 343>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2052
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (V - -)
<STEP 344>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 5 -) (V 7 -) (V - -)
Agent performance: 2051
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 5 -) (- 7 -) (V - -)
<STEP 345>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 5 -) (V 6 -) (V - -)
Agent performance: 2058
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 5 -) (L 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 5 -) (V 6 -) (- - -)
<STEP 346>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2065
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (L 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (V 4 -) (- 6 -) (- - -)
<STEP 347>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2062
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (L - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (V - -) (- 4 -) (- 6 -) (- - -)
<STEP 348>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2061
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (U - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 15 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (V - -) (- 4 -) (- 6 -) (- - -)
<STEP 349>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 11 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2068
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (U 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 11 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (V 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
<STEP 350>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 14 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2075
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (U 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 14 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (V 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
<STEP 351>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2082
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (U 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (V 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
<STEP 352>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2079
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
<STEP 353>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (V 2 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2078
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 8 -) (- 2 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
<STEP 354>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 2 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2085
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 7 -) (- 2 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V 7 -) (- 2 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
<STEP 355>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2092
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (R 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (V 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
<STEP 356>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2089
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (R - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (V - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
<STEP 357>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2088
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (D - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (V - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
<STEP 358>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 6 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2085
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (D - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (V - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 6 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
<STEP 359>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 5 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2092
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (D 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (V 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 5 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
<STEP 360>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2099
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (D 4 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (V 4 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (- - -)
<STEP 361>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2096
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (V - -)
<STEP 362>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 4 -) (V 6 -) (V - -)
Agent performance: 2095
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 4 -) (- 6 -) (V - -)
<STEP 363>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 4 -) (V 5 -) (V - -)
Agent performance: 2102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 4 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 4 -) (V 5 -) (- - -)
<STEP 364>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (L 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (V 3 -) (- 5 -) (- - -)
<STEP 365>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (L - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (V - -) (- 3 -) (- 5 -) (- - -)
<STEP 366>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (U - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 14 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (V - -) (- 3 -) (- 5 -) (- - -)
<STEP 367>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 10 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (U 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 10 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (V 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
<STEP 368>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 13 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (U 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 13 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (V 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
<STEP 369>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (U 12 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (V 12 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
<STEP 370>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
<STEP 371>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (V 1 -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 7 -) (- 1 -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
<STEP 372>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V 1 -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 6 -) (- 1 -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V 6 -) (- 1 -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
<STEP 373>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (R - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (V - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
<STEP 374>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (- 17 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (D - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (V - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 17 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
<STEP 375>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (- 22 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (D 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (V 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 22 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
<STEP 376>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (D 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (V 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 25 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
<STEP 377>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 5 -) (V - -)
Agent performance: 2162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (D 24 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (V 24 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (- 5 -) (- - -)
<STEP 378>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 4 -) (V - -)
Agent performance: 2169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (D 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (V 4 -) (- - -)
<STEP 379>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 3 -) (V 3 -) (V - -)
Agent performance: 2178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 3 -) (V 3 -) (- - -)
<STEP 380>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (L 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (V 2 -) (- 3 -) (- - -)
<STEP 381>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (L - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (V - -) (- 2 -) (- 3 -) (- - -)
<STEP 382>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 13 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (U - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 13 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (V - -) (- 2 -) (- 3 -) (- - -)
<STEP 383>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 9 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (U 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 9 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (V 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
<STEP 384>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 12 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (U 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 12 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (V 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
<STEP 385>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (U 11 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (V 11 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
<STEP 386>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
<STEP 387>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 6 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
<STEP 388>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
<STEP 389>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (R - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (V - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
<STEP 390>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 16 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (D - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (V - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 16 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
<STEP 391>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 21 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (D 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (V 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 21 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
<STEP 392>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 24 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (D 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (V 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 24 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
<STEP 393>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 3 -) (V - -)
Agent performance: 2222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (D 23 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (V 23 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (- 3 -) (- - -)
<STEP 394>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 2 -) (V - -)
Agent performance: 2229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (D 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (V 2 -) (- - -)
<STEP 395>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 2 -) (V 1 -) (V - -)
Agent performance: 2238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 2 -) (V 1 -) (- - -)
<STEP 396>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (L 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (V 1 -) (- 1 -) (- - -)
<STEP 397>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (L - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (V - -) (- 1 -) (- 1 -) (- - -)
<STEP 398>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 12 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (U - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 12 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (V - -) (- 1 -) (- 1 -) (- - -)
<STEP 399>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 8 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (U 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 8 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (V 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
<STEP 400>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 11 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (U 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 11 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (V 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
<STEP 401>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (U 10 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (V 10 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
<STEP 402>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
<STEP 403>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 5 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
<STEP 404>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
<STEP 405>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (R - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
<STEP 406>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 15 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (D - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 15 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
<STEP 407>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 20 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (D 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (V 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 20 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
<STEP 408>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 23 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (D 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (V 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 23 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
<STEP 409>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V 1 -) (V - -)
Agent performance: 2282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (D 22 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (V 22 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (- 1 -) (- - -)
<STEP 410>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (V - -) (- - -)
<STEP 411>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V 1 -) (V - -) (V - -)
Agent performance: 2288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- 1 -) (V - -) (- - -)
<STEP 412>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 413>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (- 24 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 24 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 414>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 21 1) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (U 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 21 1) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (V 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 415>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (- 15 1) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (U 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 15 1) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (V 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 416>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (U 14 -) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 4 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (V 14 -) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 417>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2316
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U 3 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V 3 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 418>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2325
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 419>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2322
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (R - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 420>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 14 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2321
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (D - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 14 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 421>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 19 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2328
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (D 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 19 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 422>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 18 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 22 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2335
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (D 18 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 18 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 22 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 423>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 18 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 21 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2342
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 18 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (D 21 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 18 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 21 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 424>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 18 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 21 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2339
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 18 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 21 -) (- 4 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 18 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 21 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 425>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 18 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 21 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2338
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 18 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 21 -) (- 4 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 18 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 21 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 426>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 18 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 21 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2337
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 18 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 21 -) (- 4 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 18 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 21 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 427>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 18 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2344
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 18 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (U 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 18 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 428>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 13 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 17 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2351
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (U 17 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 13 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 17 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 429>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 17 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2358
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (U 12 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 17 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 12 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 17 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 430>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 17 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2355
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (U - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 12 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 17 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 12 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 17 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 431>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 17 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2354
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (R - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 12 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 17 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 12 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 17 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 432>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 12 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 17 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2353
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (D - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 12 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 17 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 12 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 17 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 433>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 17 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2360
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (D 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 17 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 17 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 434>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 16 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 20 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2367
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (D 16 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 16 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 20 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 435>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 16 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 19 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2374
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 16 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (D 19 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 16 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 19 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 436>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 16 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 19 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2371
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 16 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 19 -) (- 4 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 16 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 19 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 437>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 16 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 19 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2370
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 16 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 19 -) (- 4 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 16 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 19 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 438>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 16 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 19 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2369
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 16 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 19 -) (- 4 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 16 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 19 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 439>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 16 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 18 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2376
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 16 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (U 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 16 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 440>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 11 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 15 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 18 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2383
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (U 15 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 11 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 15 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 441>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 10 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 15 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 18 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2390
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (U 10 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 15 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 10 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 15 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 442>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 10 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 15 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 18 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2387
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (U - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 10 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 15 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 10 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 15 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 443>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 10 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 15 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 18 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2386
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (R - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 10 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 15 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 10 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 15 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 444>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 10 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 15 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 18 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2385
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (D - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 10 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 15 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 10 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 15 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 445>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 9 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 15 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 18 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2392
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (D 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 15 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 15 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 446>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 9 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 14 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 18 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2399
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (D 14 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 14 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 18 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 447>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 9 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 14 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 17 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2406
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 14 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (D 17 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 14 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 17 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 448>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 9 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 14 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 17 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2403
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 14 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 17 -) (- 4 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 14 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 17 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 449>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 9 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 14 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 17 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2402
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 14 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 17 -) (- 4 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 14 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 17 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 450>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 9 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 14 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 17 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2401
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 14 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 17 -) (- 4 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 14 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 17 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 451>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 9 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 14 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 16 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2408
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 14 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (U 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 14 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 452>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 9 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 13 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 16 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2415
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (U 13 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 9 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 13 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 453>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 8 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 13 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 16 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2422
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (U 8 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 13 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 8 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 13 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 454>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 8 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 13 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 16 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2419
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (U - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 8 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 13 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 8 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 13 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 455>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 8 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 13 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 16 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2418
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (R - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 8 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 13 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 8 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 13 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 456>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 8 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 13 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 16 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2417
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (D - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 8 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 13 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 8 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 13 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 457>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 7 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 13 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 16 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2424
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (D 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 13 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 13 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 458>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 7 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 12 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 16 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2431
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (D 12 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 12 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 16 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 459>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 7 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 12 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 15 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2438
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 12 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (D 15 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 12 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 15 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 460>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 7 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 12 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 15 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2435
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 12 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 15 -) (- 4 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 12 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 15 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 461>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 7 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 12 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 15 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2434
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 12 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 15 -) (- 4 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 12 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 15 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 462>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 7 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 12 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 15 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2433
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 12 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 15 -) (- 4 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 12 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 15 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 463>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 7 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 12 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 14 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2440
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 12 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (U 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 12 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 464>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 7 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 11 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 14 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2447
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (U 11 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 7 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 11 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 465>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 6 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 11 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 14 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2454
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (U 6 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 11 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 6 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 11 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 466>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 6 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 11 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 14 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2451
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (U - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 6 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 11 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 6 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 11 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 467>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 6 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 11 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 14 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2450
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (R - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 6 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 11 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 6 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 11 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 468>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 6 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 11 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 14 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2449
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (D - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 6 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 11 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 6 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 11 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 469>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 5 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 11 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 14 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2456
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (D 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 11 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 11 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 470>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 5 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 10 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 14 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2463
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (D 10 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 10 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 14 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 471>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 5 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 10 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 13 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2470
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 10 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (D 13 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 10 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 13 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 472>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 5 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 10 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 13 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2467
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 10 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 13 -) (- 4 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 10 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 13 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 473>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 5 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 10 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 13 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2466
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 10 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 13 -) (- 4 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 10 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 13 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 474>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 5 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 10 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 13 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2465
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 10 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 13 -) (- 4 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 10 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 13 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 475>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 5 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 10 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 12 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2472
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 10 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (U 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 10 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 476>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 5 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 9 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 12 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2479
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (U 9 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 5 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 9 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 477>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 4 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 9 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 12 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2486
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (U 4 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 9 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 4 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 9 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 478>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 4 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 9 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 12 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2483
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (U - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 4 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 9 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 4 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 9 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 479>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 4 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 9 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 12 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2482
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (R - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 4 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 9 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 4 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 9 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 480>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 4 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 9 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 12 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2481
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (D - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 4 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 9 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 4 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 9 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 481>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 3 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 9 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 12 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2488
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (D 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 9 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 9 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 482>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 3 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 8 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 12 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2495
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (D 8 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 8 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 12 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 483>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 3 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 8 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 11 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2502
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 8 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (D 11 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 8 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 11 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 484>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 3 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 8 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 11 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2499
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 8 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 11 -) (- 4 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 8 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 11 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 485>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 3 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 8 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 11 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2498
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 8 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 11 -) (- 4 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 8 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 11 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 486>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 3 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 8 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 11 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2497
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 8 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 11 -) (- 4 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 8 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 11 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 487>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 3 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 8 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 10 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2504
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 8 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (U 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 8 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 488>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 3 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 7 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 10 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (U 7 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 3 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 7 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 489>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 2 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 7 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 10 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2518
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (U 2 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 7 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 2 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 7 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 490>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 2 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 7 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 10 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2515
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (U - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 2 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 7 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 2 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 7 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 491>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 2 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 7 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 10 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2514
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (R - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 2 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 7 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 2 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 7 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 492>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 2 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 7 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 10 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2513
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (D - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 2 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 7 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (V - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 2 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 7 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 493>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 1 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 7 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 10 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2520
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (D 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 7 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 7 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 494>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 1 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 6 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 10 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2527
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (D 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 10 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 495>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 1 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 6 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 9 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2534
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (D 9 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 9 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 496>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 1 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 6 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 9 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2531
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 9 -) (- 4 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 9 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 497>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 1 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 6 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 9 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2530
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 9 -) (- 4 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 9 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 498>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 1 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 6 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 9 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2529
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 9 -) (- 4 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 9 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 499>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 1 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 6 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 8 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2536
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (U 8 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 6 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 8 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 500>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V 1 -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 5 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 8 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2543
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (U 5 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 8 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- 1 -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 5 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 8 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 501>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 5 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 8 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2550
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (U - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 5 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 8 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 5 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 8 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 502>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 5 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 8 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (R - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 5 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 8 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 5 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 8 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 503>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 5 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 8 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2548
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (D - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 5 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 8 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 5 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 8 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 504>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 4 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 8 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2555
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (D 4 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 8 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 4 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 8 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 505>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 4 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 7 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2562
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 4 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (D 7 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 4 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 7 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 506>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 4 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 7 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2559
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 4 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 7 -) (- 4 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 4 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 7 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 507>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 4 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 7 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2558
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 4 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 7 -) (- 4 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 4 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 7 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 508>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 4 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 7 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2557
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 4 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 7 -) (- 4 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 4 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 7 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 509>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 4 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 6 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2564
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 4 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (U 6 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 4 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 6 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 510>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 3 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 6 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2571
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (U 3 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 6 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 3 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 6 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 511>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 3 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 6 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2568
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (U - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 3 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 6 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 3 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 6 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 512>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 3 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 6 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2567
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (R - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 3 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 6 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 3 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 6 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 513>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 3 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 6 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2566
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (D - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 3 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 6 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 3 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 6 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 514>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 2 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 6 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2573
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (D 2 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 6 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 2 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 6 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 515>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 2 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 5 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2580
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 2 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (D 5 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 2 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 5 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 516>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 2 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 5 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2577
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 2 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 5 -) (- 4 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 2 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 5 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 517>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 2 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 5 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2576
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 2 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 5 -) (- 4 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 2 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 5 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 518>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 2 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 5 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2575
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 2 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 5 -) (- 4 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 2 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 5 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 519>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 2 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 4 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2582
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 2 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (U 4 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 2 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 4 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 520>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 1 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 4 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2589
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (U 1 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 4 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V 1 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 4 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 521>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 1 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 4 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2586
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (U - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 1 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 4 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 1 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 4 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 522>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 1 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 4 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2585
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (R - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 1 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 4 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 1 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 4 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 523>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V 1 -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 4 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2584
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (D - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 1 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 4 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (V - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- 1 -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 4 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 524>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 4 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2591
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (D - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 4 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 4 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 525>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 3 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2598
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (D 3 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 3 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 526>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 3 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2595
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 3 -) (- 4 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 3 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 527>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 3 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2594
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 3 -) (- 4 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 3 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 528>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 3 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2593
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 3 -) (- 4 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 3 -) (- 4 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 529>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2600
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (U 2 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (V 2 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 530>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2597
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (U - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 531>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 5 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2596
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (R - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V - -) (- 5 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 532>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 4 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2603
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (R 4 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (V 4 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 533>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 3 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 4 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2612
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (D 3 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (V 3 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 4 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 534>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 3 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 3 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2619
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 3 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (D 3 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 3 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (V 3 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 535>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 3 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 3 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2616
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 3 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 3 -)
4 (- - -) (- - -) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 3 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 3 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 536>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 3 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 3 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2615
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 3 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 3 -)
4 (- - -) (- - -) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 3 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 3 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 537>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 3 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 3 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2614
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 3 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 3 -)
4 (- - -) (- - -) (- - -) (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 3 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 3 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 538>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 3 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2621
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 3 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (U 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 3 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (V 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 539>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 2 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2628
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (U 2 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (V 2 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 540>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 2 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2625
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (U - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 2 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (V - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 2 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 541>
SELECTED ACTION: Turn
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 2 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2624
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (R - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 2 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (V - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 2 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 542>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 2 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2623
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (D - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 2 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (V - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 2 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 543>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 1 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2630
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (D 1 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (V 1 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 544>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 1 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2637
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 1 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (D 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 1 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (V 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 545>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 1 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2634
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 1 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 1 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 546>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 1 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2633
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 1 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 1 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 547>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 1 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2632
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 1 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 1 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 548>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V 1 -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2639
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 1 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (U - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (- 1 -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 549>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (U - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (V - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 550>
SELECTED ACTION: Turn
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2645
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (R - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (V - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 551>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2644
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (D - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (V - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 552>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2643
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (L - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (- - -) (V - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 553>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 20 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2640
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (L - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (- 20 -) (V - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 554>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 7 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2647
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (L 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (- 7 -) (V 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 555>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 15 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2654
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (L 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 15 -) (V 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 556>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 14 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (L 14 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (V 14 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 557>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 8 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 13 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2670
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (U 13 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 8 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (V 13 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 558>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 7 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 13 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2677
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (U 7 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 13 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V 7 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 13 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 559>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 7 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 13 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 7 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 13 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 7 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 13 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 560>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 7 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 13 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2673
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 7 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 13 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 7 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 13 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 561>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 7 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 13 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2672
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 7 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 13 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 7 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 13 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 562>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 6 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 13 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (D 6 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 13 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V 6 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 13 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 563>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 6 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 12 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2686
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 6 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (D 12 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 6 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (V 12 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 564>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 6 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 12 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 6 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 12 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (D - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 6 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 12 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 565>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 6 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 12 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2682
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 6 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 12 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (L - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 6 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 12 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 566>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 6 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 12 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 6 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 12 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (U - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 6 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 12 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 567>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 6 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 11 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2688
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 6 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (U 11 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 6 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (V 11 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 568>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 5 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 11 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2695
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (U 5 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 11 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V 5 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 11 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 569>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 5 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 11 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2692
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 5 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 11 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 5 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 11 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 570>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 5 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 11 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2691
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 5 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 11 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 5 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 11 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 571>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 5 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 11 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2690
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 5 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 11 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 5 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 11 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 572>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 4 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 11 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2697
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (D 4 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 11 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V 4 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 11 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 573>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 4 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 10 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2704
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 4 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (D 10 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 4 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (V 10 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 574>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 4 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 10 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2701
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 4 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 10 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (D - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 4 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 10 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 575>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 4 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 10 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2700
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 4 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 10 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (L - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 4 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 10 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 576>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 4 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 10 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2699
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 4 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 10 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (U - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 4 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 10 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 577>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 4 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 9 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2706
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 4 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (U 9 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 4 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (V 9 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 578>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 3 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 9 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2713
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (U 3 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 9 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V 3 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 9 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 579>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 3 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 9 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2710
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 3 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 9 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 3 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 9 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 580>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 3 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 9 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2709
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 3 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 9 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 3 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 9 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 581>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 3 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 9 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2708
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 3 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 9 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 3 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 9 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 582>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 2 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 9 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2715
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (D 2 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 9 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V 2 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 9 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 583>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 2 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 8 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2722
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 2 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (D 8 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 2 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (V 8 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 584>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 2 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 8 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2719
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 2 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 8 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (D - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 2 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 8 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 585>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 2 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 8 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2718
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 2 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 8 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (L - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 2 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 8 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 586>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 2 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 8 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2717
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 2 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 8 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (U - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 2 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 8 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 587>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 2 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 7 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2724
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 2 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (U 7 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 2 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (V 7 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 588>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 1 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 7 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2731
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (U 1 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 7 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V 1 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 7 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 589>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 1 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 7 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2728
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 1 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 7 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 1 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 7 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 590>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 1 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 7 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2727
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 1 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 7 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 1 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 7 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 591>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V 1 -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 7 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2726
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 1 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 7 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- 1 -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 7 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 592>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 7 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2733
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (D - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 7 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 7 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 593>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 6 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2740
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (D 6 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (V 6 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 594>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 6 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2737
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 6 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (D - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 6 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 595>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 6 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2736
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 6 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (L - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 6 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 596>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 6 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2735
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 6 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (U - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 6 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 597>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2742
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (U 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (V 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 598>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2739
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (U - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 599>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 10 -) (V 14 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2738
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (R - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 10 -) (- 14 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 600>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 9 -) (V 14 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2745
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (R 9 -) (- 14 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V 9 -) (- 14 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 601>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 9 -) (V 13 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2752
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 9 -) (R 13 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 9 -) (V 13 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 602>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 9 -) (V 13 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2749
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 9 -) (- 13 -) (R - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 9 -) (- 13 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 603>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 9 -) (V 13 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2748
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 9 -) (- 13 -) (D - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 9 -) (- 13 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 604>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 9 -) (V 13 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2747
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 9 -) (- 13 -) (L - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 9 -) (- 13 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 605>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 9 -) (V 12 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2754
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 9 -) (L 12 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 9 -) (V 12 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 606>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 8 -) (V 12 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2761
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (L 8 -) (- 12 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V 8 -) (- 12 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 607>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 8 -) (V 12 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2758
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (L - -) (- 8 -) (- 12 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 8 -) (- 12 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 608>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 8 -) (V 12 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2757
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (U - -) (- 8 -) (- 12 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 8 -) (- 12 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 609>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 8 -) (V 12 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2756
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (R - -) (- 8 -) (- 12 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 8 -) (- 12 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 610>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 7 -) (V 12 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2763
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (R 7 -) (- 12 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V 7 -) (- 12 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 611>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 7 -) (V 11 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2770
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 7 -) (R 11 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 7 -) (V 11 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 612>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 7 -) (V 11 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2767
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 7 -) (- 11 -) (R - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 7 -) (- 11 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 613>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 7 -) (V 11 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2766
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 7 -) (- 11 -) (D - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 7 -) (- 11 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 614>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 7 -) (V 11 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2765
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 7 -) (- 11 -) (L - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 7 -) (- 11 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 615>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 7 -) (V 10 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2772
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 7 -) (L 10 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 7 -) (V 10 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 616>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 6 -) (V 10 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2779
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (L 6 -) (- 10 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V 6 -) (- 10 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 617>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 6 -) (V 10 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2776
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (L - -) (- 6 -) (- 10 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 6 -) (- 10 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 618>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 6 -) (V 10 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2775
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (U - -) (- 6 -) (- 10 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 6 -) (- 10 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 619>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 6 -) (V 10 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2774
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (R - -) (- 6 -) (- 10 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 6 -) (- 10 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 620>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 5 -) (V 10 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2781
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (R 5 -) (- 10 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V 5 -) (- 10 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 621>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 5 -) (V 9 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2788
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 5 -) (R 9 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 5 -) (V 9 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 622>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 5 -) (V 9 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2785
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 5 -) (- 9 -) (R - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 5 -) (- 9 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 623>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 5 -) (V 9 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2784
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 5 -) (- 9 -) (D - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 5 -) (- 9 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 624>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 5 -) (V 9 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2783
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 5 -) (- 9 -) (L - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 5 -) (- 9 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 625>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 5 -) (V 8 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2790
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 5 -) (L 8 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 5 -) (V 8 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 626>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 4 -) (V 8 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2797
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (L 4 -) (- 8 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V 4 -) (- 8 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 627>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 4 -) (V 8 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2794
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (L - -) (- 4 -) (- 8 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 4 -) (- 8 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 628>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 4 -) (V 8 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2793
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (U - -) (- 4 -) (- 8 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 4 -) (- 8 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 629>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 4 -) (V 8 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2792
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (R - -) (- 4 -) (- 8 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 4 -) (- 8 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 630>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 3 -) (V 8 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2799
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (R 3 -) (- 8 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V 3 -) (- 8 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 631>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 3 -) (V 7 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2806
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 3 -) (R 7 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 3 -) (V 7 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 632>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 3 -) (V 7 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2803
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 -) (R - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 633>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 3 -) (V 7 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2802
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 -) (D - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 634>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 3 -) (V 7 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2801
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 -) (L - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 3 -) (- 7 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 635>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 3 -) (V 6 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2808
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 3 -) (L 6 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 3 -) (V 6 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 636>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2815
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (L 2 -) (- 6 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V 2 -) (- 6 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 637>
SELECTED ACTION: Advance
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2812
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (L - -) (- 2 -) (- 6 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 2 -) (- 6 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 638>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2811
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (U - -) (- 2 -) (- 6 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 2 -) (- 6 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 639>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 2 -) (V 6 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2810
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (R - -) (- 2 -) (- 6 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- 2 -) (- 6 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 640>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 1 -) (V 6 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2817
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (R 1 -) (- 6 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V 1 -) (- 6 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 641>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2824
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 1 -) (R 5 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 1 -) (V 5 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 642>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2821
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (R - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 643>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2820
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (D - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 644>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 1 -) (V 5 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2819
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (L - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 1 -) (- 5 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 645>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V 1 -) (V 4 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2826
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 1 -) (L 4 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- 1 -) (V 4 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 646>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2833
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (L - -) (- 4 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V - -) (- 4 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 647>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2832
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (U - -) (- 4 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V - -) (- 4 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 648>
SELECTED ACTION: Turn
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 4 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2831
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (R - -) (- 4 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V - -) (- 4 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 649>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2838
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (R 3 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (V 3 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 650>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2835
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 3 -) (R - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 3 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 651>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2834
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 3 -) (D - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 3 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 652>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 3 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2833
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 3 -) (L - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 3 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 653>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2840
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (L 2 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (V 2 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 654>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2837
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (L - -) (- 2 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V - -) (- 2 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 655>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2836
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (U - -) (- 2 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V - -) (- 2 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 656>
SELECTED ACTION: Turn
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 2 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2835
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (R - -) (- 2 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (V - -) (- 2 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 657>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2842
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (R 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (V 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 658>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2839
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (R - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 659>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2838
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (D - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (V - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 660>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2835
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (D - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (V - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 661>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2842
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (D 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (V 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 662>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2839
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 663>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2838
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 664>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2837
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 665>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2844
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (U - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 666>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2843
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (R - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 667>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2842
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (D - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 668>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 23 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2841
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (- 23 -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 669>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 11 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2848
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (L 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 11 -) (V 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 670>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2855
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (L 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (V 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 671>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2852
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (L - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 672>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 5 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2851
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (U - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 5 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 673>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 4 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2858
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (U 4 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V 4 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 674>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 4 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2855
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (U - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 4 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 4 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 675>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 4 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2854
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (R - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 4 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 4 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 676>
SELECTED ACTION: Turn
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 4 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2853
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (D - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 4 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 4 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 677>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 3 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2860
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (D 3 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V 3 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 678>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 3 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2857
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 3 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (D - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 3 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 679>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 3 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2856
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 3 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (L - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 3 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 680>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 3 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2855
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 3 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (U - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 3 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 681>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 2 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2862
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (U 2 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V 2 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 682>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 2 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2859
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (U - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 2 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 2 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 683>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 2 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2858
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (R - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 2 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 2 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 684>
SELECTED ACTION: Turn
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 2 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2857
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (D - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 2 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (V - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 2 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 685>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 1 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2864
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (D 1 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V 1 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 686>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 1 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2861
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 1 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (D - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 1 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 687>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 1 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2860
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 1 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (L - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 1 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 688>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V 1 -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2859
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 1 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (U - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- 1 -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (V - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 689>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2866
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (U - -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 690>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 6 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2865
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (R - -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- 6 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 691>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 5 -) (V 19 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2872
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (R 5 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V 5 -) (- 19 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 692>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 5 -) (V 18 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2879
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 5 -) (R 18 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 5 -) (V 18 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 693>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 5 -) (V 18 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2876
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 5 -) (- 18 -) (R - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 5 -) (- 18 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 694>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 5 -) (V 18 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2875
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 5 -) (- 18 -) (D - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 5 -) (- 18 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 695>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 5 -) (V 18 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2874
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 5 -) (- 18 -) (L - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 5 -) (- 18 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 696>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 5 -) (V 17 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2881
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 5 -) (L 17 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 5 -) (V 17 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 697>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 4 -) (V 17 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2888
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (L 4 -) (- 17 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V 4 -) (- 17 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 698>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 4 -) (V 17 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2885
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (L - -) (- 4 -) (- 17 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- 4 -) (- 17 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 699>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 4 -) (V 17 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2884
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (U - -) (- 4 -) (- 17 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- 4 -) (- 17 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 700>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 4 -) (V 17 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2883
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (R - -) (- 4 -) (- 17 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- 4 -) (- 17 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 701>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 3 -) (V 17 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2890
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (R 3 -) (- 17 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V 3 -) (- 17 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 702>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 3 -) (V 16 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2897
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 3 -) (R 16 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 3 -) (V 16 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 703>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 3 -) (V 16 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2894
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 3 -) (- 16 -) (R - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 3 -) (- 16 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 704>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 3 -) (V 16 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2893
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 3 -) (- 16 -) (D - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 3 -) (- 16 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 705>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 3 -) (V 16 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2892
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 3 -) (- 16 -) (L - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 3 -) (- 16 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 706>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 3 -) (V 15 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2899
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 3 -) (L 15 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 3 -) (V 15 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 707>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 2 -) (V 15 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2906
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (L 2 -) (- 15 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V 2 -) (- 15 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 708>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 2 -) (V 15 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2903
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (L - -) (- 2 -) (- 15 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- 2 -) (- 15 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 709>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 2 -) (V 15 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2902
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (U - -) (- 2 -) (- 15 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- 2 -) (- 15 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 710>
SELECTED ACTION: Turn
Agent state: (0, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 2 -) (V 15 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2901
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (R - -) (- 2 -) (- 15 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (V - -) (- 2 -) (- 15 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 711>
SELECTED ACTION: Advance
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 1 -) (V 15 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2908
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (R 1 -) (- 15 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V 1 -) (- 15 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 712>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 1 -) (V 14 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2915
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 1 -) (R 14 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 1 -) (V 14 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 713>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 1 -) (V 14 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2912
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 1 -) (- 14 -) (R - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 1 -) (- 14 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 714>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 1 -) (V 14 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2911
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 1 -) (- 14 -) (D - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 1 -) (- 14 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 715>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 1 -) (V 14 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2910
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 1 -) (- 14 -) (L - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 1 -) (- 14 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 716>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V 1 -) (V 13 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2917
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 1 -) (L 13 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- 1 -) (V 13 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 717>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 13 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2924
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (L - -) (- 13 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 13 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 718>
SELECTED ACTION: Turn
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 13 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2923
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (U - -) (- 13 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 13 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 719>
SELECTED ACTION: Turn
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 13 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2922
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (R - -) (- 13 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 13 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 720>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 12 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2929
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (R 12 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V 12 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 721>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 12 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2926
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 12 -) (R - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 12 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 722>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 12 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2925
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 12 -) (D - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 12 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 723>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 12 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2924
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 12 -) (L - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 12 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 724>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 11 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2931
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (L 11 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V 11 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 725>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 11 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2928
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (L - -) (- 11 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 11 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 726>
SELECTED ACTION: Turn
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 11 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2927
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (U - -) (- 11 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 11 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 727>
SELECTED ACTION: Turn
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 11 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2926
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (R - -) (- 11 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 11 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 728>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 10 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2933
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (R 10 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V 10 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 729>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 10 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2930
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 10 -) (R - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 10 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 730>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 10 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2929
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 10 -) (D - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 10 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 731>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 10 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2928
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 10 -) (L - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 10 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 732>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 9 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2935
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (L 9 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V 9 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 733>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 9 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2932
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (L - -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 734>
SELECTED ACTION: Turn
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 9 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2931
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (U - -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 735>
SELECTED ACTION: Turn
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 9 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2930
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (R - -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 9 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 736>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 8 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2937
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (R 8 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V 8 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 737>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 8 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2934
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 8 -) (R - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 8 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 738>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 8 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2933
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 8 -) (D - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 8 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 739>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 8 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2932
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 8 -) (L - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 8 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 740>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 7 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2939
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (L 7 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V 7 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 741>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 7 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2936
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (L - -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 742>
SELECTED ACTION: Turn
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 7 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2935
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (U - -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 743>
SELECTED ACTION: Turn
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 7 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2934
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (R - -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 7 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 744>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 6 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2941
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (R 6 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V 6 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 745>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 6 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2938
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 6 -) (R - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 6 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 746>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 6 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2937
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 6 -) (D - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 6 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 747>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 6 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2936
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 6 -) (L - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 6 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 748>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 5 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2943
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (L 5 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V 5 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 749>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 5 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2940
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (L - -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 750>
SELECTED ACTION: Turn
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 5 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2939
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (U - -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 751>
SELECTED ACTION: Turn
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 5 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2938
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (R - -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 5 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 752>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 4 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2945
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (R 4 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V 4 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 753>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 4 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2942
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 4 -) (R - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 4 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 754>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 4 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2941
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 4 -) (D - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 4 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 755>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 4 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2940
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 4 -) (L - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 4 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 756>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 3 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2947
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (L 3 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V 3 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 757>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 3 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2944
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (L - -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 758>
SELECTED ACTION: Turn
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 3 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2943
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (U - -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 759>
SELECTED ACTION: Turn
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 3 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2942
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (R - -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 3 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 760>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 2 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2949
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (R 2 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V 2 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 761>
SELECTED ACTION: Advance
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 2 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2946
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 2 -) (R - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 2 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 762>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 2 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2945
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 2 -) (D - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 2 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 763>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 2 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2944
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 2 -) (L - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- 2 -) (V - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 764>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 1 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2951
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (L 1 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V 1 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 765>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 1 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2948
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (L - -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 766>
SELECTED ACTION: Turn
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 1 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2947
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (U - -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 767>
SELECTED ACTION: Turn
Agent state: (1, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V 1 -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2946
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (R - -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (V - -) (- 1 -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 768>
SELECTED ACTION: Advance
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2953
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 769>
SELECTED ACTION: Turn
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 22 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2952
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 22 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 770>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 21 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2959
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (D 21 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 21 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 771>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 21 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2956
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 21 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 21 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 772>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 21 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2955
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 21 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 21 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 773>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 21 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2954
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 21 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 21 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 774>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 20 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2961
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (U 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 775>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 20 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2958
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (- 1 -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 776>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 20 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2965
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (U - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- 2 -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 777>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 20 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2972
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U 1 -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V 1 -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 778>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 20 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2981
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 779>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 20 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2980
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 780>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 20 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2977
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (D - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (V - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 781>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 20 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2974
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 20 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 782>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 19 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2981
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (D 19 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 19 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 783>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 19 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2978
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 19 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 19 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 784>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 19 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2977
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 19 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 19 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 785>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 19 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2976
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 19 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 19 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 786>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 18 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2983
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (U 18 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 18 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 787>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 18 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2980
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 18 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 18 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 788>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 18 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2979
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 18 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 18 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 789>
SELECTED ACTION: Turn
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 18 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2978
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 18 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 18 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 790>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 17 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2985
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (D 17 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 17 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 791>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 17 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2982
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 17 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 17 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 792>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 17 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2981
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 17 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 17 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 793>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 17 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2980
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 17 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 17 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 794>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 16 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2987
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (U 16 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 16 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 795>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 16 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2984
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 16 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 16 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 796>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 16 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2983
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 16 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 16 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 797>
SELECTED ACTION: Turn
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 16 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2982
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 16 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 16 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 798>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 15 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2989
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (D 15 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 15 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 799>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 15 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2986
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 15 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 15 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 800>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 15 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2985
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 15 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 15 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 801>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 15 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2984
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 15 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 15 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 802>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 14 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2991
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (U 14 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 14 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 803>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 14 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2988
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 804>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 14 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2987
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 805>
SELECTED ACTION: Turn
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 14 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2986
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 14 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 806>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 13 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2993
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (D 13 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 13 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 807>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 13 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2990
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 13 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 13 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 808>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 13 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2989
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 13 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 13 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 809>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 13 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2988
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 13 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 13 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 810>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 12 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2995
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (U 12 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 12 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 811>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 12 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2992
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 12 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 12 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 812>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 12 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2991
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 12 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 12 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 813>
SELECTED ACTION: Turn
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 12 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2990
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 12 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 12 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 814>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 11 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2997
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (D 11 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 11 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 815>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 11 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2994
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 11 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 11 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 816>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 11 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2993
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 11 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 11 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 817>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 11 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2992
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 11 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 11 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 818>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 10 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2999
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (U 10 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 10 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 819>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 10 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2996
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 10 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 10 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 820>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 10 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2995
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 10 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 10 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 821>
SELECTED ACTION: Turn
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 10 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2994
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 10 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 10 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 822>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 9 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3001
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (D 9 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 9 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 823>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 9 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2998
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 9 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 9 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 824>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 9 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2997
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 9 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 9 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 825>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 9 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2996
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 9 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 9 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 826>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 8 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3003
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (U 8 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 8 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 827>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 8 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3000
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 8 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 8 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 828>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 8 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2999
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 8 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 8 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 829>
SELECTED ACTION: Turn
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 8 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2998
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 8 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 8 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 830>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 7 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3005
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (D 7 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 7 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 831>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 7 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3002
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 7 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 7 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 832>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 7 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3001
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 7 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 7 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 833>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 7 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3000
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 7 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 7 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 834>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 6 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3007
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (U 6 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 6 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 835>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 6 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3004
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 6 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 6 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 836>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 6 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3003
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 6 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 6 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 837>
SELECTED ACTION: Turn
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 6 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3002
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 6 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 6 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 838>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 5 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3009
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (D 5 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 5 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 839>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 5 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3006
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 5 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 5 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 840>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 5 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3005
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 5 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 5 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 841>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 5 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3004
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 5 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 5 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 842>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 4 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3011
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (U 4 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 4 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 843>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 4 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3008
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 4 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 4 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 844>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 4 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3007
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 4 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 4 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 845>
SELECTED ACTION: Turn
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 4 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3006
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 4 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 4 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 846>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 3 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3013
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (D 3 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 3 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 847>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 3 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3010
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 3 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 3 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 848>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 3 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3009
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 3 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 3 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 849>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 3 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3008
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 3 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 3 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 850>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3015
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (U 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 851>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3012
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (U - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 852>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3011
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (R - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 853>
SELECTED ACTION: Turn
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 2 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3010
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (D - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (V - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 2 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 854>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3017
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (D 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V 1 -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 855>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3014
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (D - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 856>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3013
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 857>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V 1 -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3012
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (- 1 -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 858>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3019
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 859>
SELECTED ACTION: Turn
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3018
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 860>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3017
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 861>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 10 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3016
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 10 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 862>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 9 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3023
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (L 9 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (V 9 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 863>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 9 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3020
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (L - -) (- 9 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 9 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 864>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 9 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3019
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (U - -) (- 9 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 9 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 865>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 9 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3018
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (R - -) (- 9 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 9 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 866>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 8 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3025
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (R 8 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (V 8 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 867>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 8 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3022
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 8 -) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 8 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 868>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 8 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3021
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 8 -) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 8 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 869>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 8 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3020
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 8 -) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 8 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 870>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 7 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3027
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (L 7 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (V 7 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 871>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 7 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3024
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (L - -) (- 7 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 7 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 872>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 7 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3023
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (U - -) (- 7 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 7 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 873>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 7 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3022
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (R - -) (- 7 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 7 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 874>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 6 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3029
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (R 6 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (V 6 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 875>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 6 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3026
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 6 -) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 6 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 876>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 6 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3025
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 6 -) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 6 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 877>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 6 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3024
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 6 -) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 6 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 878>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 5 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3031
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (L 5 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (V 5 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 879>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 5 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3028
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (L - -) (- 5 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 5 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 880>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 5 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3027
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (U - -) (- 5 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 5 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 881>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 5 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3026
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (R - -) (- 5 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 5 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 882>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 4 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3033
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (R 4 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (V 4 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 883>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 4 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3030
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 4 -) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 4 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 884>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 4 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3029
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 4 -) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 4 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 885>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 4 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3028
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 4 -) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 4 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 886>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 3 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3035
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (L 3 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (V 3 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 887>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 3 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3032
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (L - -) (- 3 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 3 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 888>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 3 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3031
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (U - -) (- 3 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 3 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 889>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 3 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3030
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (R - -) (- 3 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 3 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 890>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3037
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (R 2 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (V 2 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 891>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3034
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 892>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3033
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 893>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 2 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3032
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- 2 -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 894>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3039
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (L 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (V 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 895>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3036
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (L - -) (- 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 896>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3035
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (U - -) (- 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 897>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V 1 -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3034
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (R - -) (- 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (V - -) (- 1 -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 898>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3041
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (R - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STARTING>
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 21 1) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 20 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 20 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 20 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 19 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 19 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 19 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 3>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 18 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 18 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 18 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 4>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 17 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 17 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 17 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 16 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 16 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 16 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 6>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 15 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 15 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 15 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 7>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 14 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 14 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 14 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 13 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 13 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 13 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 12 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 12 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 12 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 10>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 11 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 11 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 11 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 10 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 10 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 10 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 12>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 9 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 9 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 9 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 13>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 8 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 8 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 8 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 14>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 7 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 7 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 7 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 15>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 6 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 6 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 6 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 16>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 5 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 5 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 5 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 4 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 4 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 4 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 3 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 3 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 3 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 19>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 2 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 2 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 2 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 20>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 1 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L 1 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V 1 -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (L - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (- 17 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 16 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 16 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 16 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 23>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 15 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 324
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 15 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 15 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 14 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 334
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 14 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 14 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 25>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 13 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 344
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 13 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 13 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 26>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 12 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 354
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 12 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 12 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 27>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 11 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 364
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 11 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 11 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 28>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 10 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 374
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 10 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 10 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 9 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 384
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 9 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 9 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 30>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 8 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 394
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 8 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 8 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 7 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 404
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 7 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 7 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 32>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 6 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 414
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 6 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 6 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 33>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 5 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 424
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 5 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 5 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 4 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 434
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 4 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 4 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 35>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 3 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 444
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 3 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 3 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 36>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 2 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 454
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 2 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 2 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 37>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 1 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 464
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L 1 -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V 1 -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 38>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 474
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (L - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- 26 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 25 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 483
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (L 25 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 25 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 492
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 24 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 24 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 41>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 23 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 502
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 23 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 23 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 42>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 22 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 512
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 22 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 22 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 21 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 522
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 21 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 21 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 44>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 20 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 532
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 20 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 20 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 19 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 542
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 19 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 19 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 46>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 18 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 552
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 18 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 18 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 17 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 562
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 17 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 17 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 48>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 16 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 572
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 16 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 16 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 49>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 15 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 582
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 15 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 15 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 14 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 592
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 14 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 14 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 51>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 13 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 602
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 13 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 13 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 52>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 12 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 612
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 12 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 12 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 53>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 11 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 622
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 11 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 11 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 54>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 10 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 632
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 10 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 10 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 9 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 642
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 9 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 9 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 56>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 8 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 652
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 8 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 8 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 7 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 662
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 7 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 7 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 58>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 6 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 672
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 6 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 6 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 59>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 5 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 682
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 5 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 5 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 60>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 4 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 692
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 4 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 4 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 61>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 3 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 702
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 3 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 3 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 2 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 712
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 2 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 2 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 63>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 1 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 722
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U 1 -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V 1 -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 64>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 732
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (U - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- 18 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 741
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 17 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 66>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 751
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 16 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 16 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 67>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 761
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 15 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 15 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 68>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 771
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 14 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 14 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 69>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 781
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 13 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 13 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 70>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 791
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 12 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 12 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 71>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 801
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 11 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 11 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 72>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 811
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 10 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 10 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 73>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 821
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 9 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 9 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 74>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 831
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 8 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 8 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 75>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 7 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 841
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 7 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 7 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 76>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 6 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 851
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 6 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 6 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 77>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 5 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 861
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 5 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 5 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 78>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 4 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 871
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 4 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 4 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 79>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 3 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 881
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 3 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 3 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 80>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 2 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 891
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 2 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 2 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 81>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 1 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 901
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U 1 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V 1 -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 82>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 911
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (U - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 16 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 15 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 920
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 15 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 15 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 929
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 14 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 14 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 85>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 13 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 939
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 13 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 13 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 86>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 949
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 12 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 12 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 87>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 959
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 11 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 11 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 88>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 969
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 10 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 10 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 89>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 979
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 9 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 9 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 90>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 989
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 8 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 8 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 91>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 999
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 7 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 7 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 92>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1009
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 6 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 93>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1019
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 5 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 94>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1029
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 95>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1039
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 3 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 96>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1049
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 97>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1059
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 1 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 98>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1069
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 21 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 20 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1078
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 20 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 20 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 100>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 19 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1088
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 19 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 19 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 101>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 18 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1098
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 18 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 18 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 102>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 17 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 17 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 17 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 103>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 16 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 16 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 16 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 104>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 15 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 15 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 15 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 105>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 14 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 14 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 14 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 106>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 13 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 13 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 107>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 12 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 12 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 108>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 11 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 11 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 109>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 10 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 10 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 10 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 110>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 9 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 9 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 111>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 8 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 8 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 112>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 7 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 7 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 113>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 6 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 6 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 114>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 5 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 5 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 115>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 4 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 4 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 116>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 3 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 3 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 117>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 2 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 118>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 1 -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 119>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 25 1) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (- 25 1) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 24 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 24 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 24 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 121>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 23 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 23 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 23 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 122>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 22 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 22 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 22 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 123>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 21 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 21 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 21 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 124>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 20 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1322
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 20 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 20 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 125>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 19 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1332
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 19 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 19 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 126>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 18 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1342
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 18 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 18 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 127>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 17 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1352
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 17 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 17 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 128>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 16 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1362
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 16 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 16 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 129>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 15 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1372
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 15 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 15 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 130>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 14 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1382
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 14 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 14 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 131>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 13 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1392
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 13 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 13 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 132>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 12 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1402
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 12 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 12 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 133>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 11 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1412
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 11 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 11 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 134>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 10 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1422
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 10 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 10 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 135>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 9 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1432
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 9 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 9 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 136>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1442
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 8 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 8 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 137>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1452
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 7 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 7 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 138>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1462
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 6 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 6 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 139>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1472
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 5 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 5 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 140>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1482
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 4 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 4 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 141>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1492
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 3 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 3 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 142>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1502
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 2 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 2 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 143>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1512
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R 1 -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 144>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1522
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- 19 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (- 19 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 18 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1531
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 18 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 18 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 146>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 17 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1541
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 17 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 17 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 147>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 16 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1551
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 16 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 16 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 148>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 15 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1561
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 15 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 15 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 149>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 14 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1571
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 14 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 14 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 150>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 13 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1581
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 13 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 13 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 151>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 12 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1591
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 12 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 12 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 152>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 11 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1601
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 11 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 11 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 153>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 10 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1611
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 10 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 10 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 154>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 9 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1621
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 9 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 9 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 155>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 8 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1631
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 8 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 8 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 156>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 7 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1641
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 7 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 7 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 157>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 6 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1651
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 6 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 6 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 158>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 5 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1661
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 5 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 5 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 159>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 4 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1671
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 4 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 4 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 160>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 3 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 3 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 3 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 161>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 2 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1691
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 2 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 2 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 162>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1701
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R 1 -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V 1 -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 163>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1711
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- 19 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (- 19 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 18 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1720
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R 18 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 18 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 17 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1729
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 17 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 17 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 166>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 16 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1739
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 16 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 16 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 167>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 15 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1749
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 15 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 15 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 168>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 14 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1759
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 14 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 14 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 169>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 13 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1769
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 13 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 13 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 170>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 12 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1779
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 12 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 12 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 171>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 11 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1789
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 11 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 11 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 172>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 10 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1799
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 10 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 10 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 173>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 9 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1809
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 9 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 9 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 174>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 8 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1819
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 8 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 8 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 175>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 7 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1829
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 7 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 7 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 176>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 6 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1839
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 6 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 6 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 177>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 5 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1849
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 5 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 5 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 178>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 4 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1859
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 4 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 4 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 179>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 3 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1869
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 3 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 3 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 180>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 2 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1879
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 2 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 2 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 181>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 1 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1889
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D 1 -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V 1 -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 182>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1899
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (- 14 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1908
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 13 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 13 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 184>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1918
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 12 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 12 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 185>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1928
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 11 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 11 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 186>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1938
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 10 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 10 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 187>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1948
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 9 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 9 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 188>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1958
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 8 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 8 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 189>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1968
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 7 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 7 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 190>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1978
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 6 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 6 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 191>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1988
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 5 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 5 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 192>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 1998
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 4 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 4 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 193>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 3 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2008
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 3 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 3 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 194>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 2 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2018
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 2 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 2 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 195>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 1 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2028
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D 1 -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V 1 -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 196>
SELECTED ACTION: Stay
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2038
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (D - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (- 21 1)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2042
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 20 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 198>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 19 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2052
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 19 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 19 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 199>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 18 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2062
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 18 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 18 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 200>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 17 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2072
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 17 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 17 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 201>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 16 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2082
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 16 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 16 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 202>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 15 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2092
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 15 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 15 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 203>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 14 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 14 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 14 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 204>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 13 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 13 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 13 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 205>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 12 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 12 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 12 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 206>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 11 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 11 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 11 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 207>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 10 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 10 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 10 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 208>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 9 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 9 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 9 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 209>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 8 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 8 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 8 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 210>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 7 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 7 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 7 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 211>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 6 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 6 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 6 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 212>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 5 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 5 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 5 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 213>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 4 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 4 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 4 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 214>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 3 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 3 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 3 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 215>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 2 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 2 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 2 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 216>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 1 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D 1 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V 1 -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 217>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (D - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- 20 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 19 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 219>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 18 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 18 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 220>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 17 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 17 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 221>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 16 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 16 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 222>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 15 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 15 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 223>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 14 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 14 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 224>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 13 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 13 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 225>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2321
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 12 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 12 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 226>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2331
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 11 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 11 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 227>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2341
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 10 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 10 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 228>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 9 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2351
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 9 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 9 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 229>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 8 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2361
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 8 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 8 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 230>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 7 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2371
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 7 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 7 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 231>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 6 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2381
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 6 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 6 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 232>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 5 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2391
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 5 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 5 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 233>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 4 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2401
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 4 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 4 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 234>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 3 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2411
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 3 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 3 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 235>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 2 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2421
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 2 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 2 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 236>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 1 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2431
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D 1 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V 1 -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 237>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
Agent performance: 2441
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (D - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (- 21 -)
<STEP 238>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 20 -)
Agent performance: 2450
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (D 20 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 20 -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 19 -)
Agent performance: 2459
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 19 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 19 -)
<STEP 240>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 18 -)
Agent performance: 2469
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 18 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 18 -)
<STEP 241>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 17 -)
Agent performance: 2479
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 17 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 17 -)
<STEP 242>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 16 -)
Agent performance: 2489
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 16 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 16 -)
<STEP 243>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 15 -)
Agent performance: 2499
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 15 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 15 -)
<STEP 244>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 14 -)
Agent performance: 2509
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 14 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 14 -)
<STEP 245>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 13 -)
Agent performance: 2519
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 13 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 13 -)
<STEP 246>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 12 -)
Agent performance: 2529
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 12 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 12 -)
<STEP 247>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 11 -)
Agent performance: 2539
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 11 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 11 -)
<STEP 248>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 10 -)
Agent performance: 2549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 10 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 10 -)
<STEP 249>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 9 -)
Agent performance: 2559
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 9 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 9 -)
<STEP 250>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 8 -)
Agent performance: 2569
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 8 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 8 -)
<STEP 251>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 7 -)
Agent performance: 2579
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 7 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 7 -)
<STEP 252>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 6 -)
Agent performance: 2589
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 6 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 6 -)
<STEP 253>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 5 -)
Agent performance: 2599
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 5 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 5 -)
<STEP 254>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 4 -)
Agent performance: 2609
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 4 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 4 -)
<STEP 255>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 3 -)
Agent performance: 2619
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 3 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 3 -)
<STEP 256>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 2 -)
Agent performance: 2629
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 2 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 2 -)
<STEP 257>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 1 -)
Agent performance: 2639
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L 1 -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V 1 -)
<STEP 258>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V - -)
Agent performance: 2649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (- 29 -) (V - -)
<STEP 259>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 28 -) (V - -)
Agent performance: 2658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 28 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 28 -) (V - -)
<STEP 260>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 27 -) (V - -)
Agent performance: 2668
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 27 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 27 -) (V - -)
<STEP 261>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 26 -) (V - -)
Agent performance: 2678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 26 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 26 -) (V - -)
<STEP 262>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 25 -) (V - -)
Agent performance: 2688
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 25 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 25 -) (V - -)
<STEP 263>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 24 -) (V - -)
Agent performance: 2698
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 24 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 24 -) (V - -)
<STEP 264>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 23 -) (V - -)
Agent performance: 2708
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 23 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 23 -) (V - -)
<STEP 265>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 22 -) (V - -)
Agent performance: 2718
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 22 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 22 -) (V - -)
<STEP 266>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 21 -) (V - -)
Agent performance: 2728
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 21 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 21 -) (V - -)
<STEP 267>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 20 -) (V - -)
Agent performance: 2738
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 20 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 20 -) (V - -)
<STEP 268>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 19 -) (V - -)
Agent performance: 2748
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 19 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 19 -) (V - -)
<STEP 269>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 18 -) (V - -)
Agent performance: 2758
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 18 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 18 -) (V - -)
<STEP 270>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 17 -) (V - -)
Agent performance: 2768
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 17 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 17 -) (V - -)
<STEP 271>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 16 -) (V - -)
Agent performance: 2778
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 16 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 16 -) (V - -)
<STEP 272>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 15 -) (V - -)
Agent performance: 2788
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 15 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 15 -) (V - -)
<STEP 273>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 14 -) (V - -)
Agent performance: 2798
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 14 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 14 -) (V - -)
<STEP 274>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 13 -) (V - -)
Agent performance: 2808
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 13 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 13 -) (V - -)
<STEP 275>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 12 -) (V - -)
Agent performance: 2818
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 12 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 12 -) (V - -)
<STEP 276>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 11 -) (V - -)
Agent performance: 2828
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 11 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 11 -) (V - -)
<STEP 277>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 10 -) (V - -)
Agent performance: 2838
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 10 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 10 -) (V - -)
<STEP 278>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 9 -) (V - -)
Agent performance: 2848
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 9 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 9 -) (V - -)
<STEP 279>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 8 -) (V - -)
Agent performance: 2858
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 8 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 8 -) (V - -)
<STEP 280>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 7 -) (V - -)
Agent performance: 2868
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 7 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 7 -) (V - -)
<STEP 281>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 6 -) (V - -)
Agent performance: 2878
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 6 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 6 -) (V - -)
<STEP 282>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 5 -) (V - -)
Agent performance: 2888
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 5 -) (V - -)
<STEP 283>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 4 -) (V - -)
Agent performance: 2898
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 4 -) (V - -)
<STEP 284>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 3 -) (V - -)
Agent performance: 2908
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 3 -) (V - -)
<STEP 285>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 2 -) (V - -)
Agent performance: 2918
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 2 -) (V - -)
<STEP 286>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 1 -) (V - -)
Agent performance: 2928
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V 1 -) (V - -)
<STEP 287>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V - -) (V - -)
Agent performance: 2938
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (- 27 -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (- 27 -) (V - -) (V - -)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 26 -) (V - -) (V - -)
Agent performance: 2947
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 26 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 26 -) (V - -) (V - -)
<STEP 289>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 25 -) (V - -) (V - -)
Agent performance: 2957
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 25 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 25 -) (V - -) (V - -)
<STEP 290>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 24 -) (V - -) (V - -)
Agent performance: 2967
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 24 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 24 -) (V - -) (V - -)
<STEP 291>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 23 -) (V - -) (V - -)
Agent performance: 2977
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 23 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 23 -) (V - -) (V - -)
<STEP 292>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 22 -) (V - -) (V - -)
Agent performance: 2987
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 22 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 22 -) (V - -) (V - -)
<STEP 293>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 21 -) (V - -) (V - -)
Agent performance: 2997
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 21 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 21 -) (V - -) (V - -)
<STEP 294>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 20 -) (V - -) (V - -)
Agent performance: 3007
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 20 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 20 -) (V - -) (V - -)
<STEP 295>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 19 -) (V - -) (V - -)
Agent performance: 3017
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 19 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 19 -) (V - -) (V - -)
<STEP 296>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 18 -) (V - -) (V - -)
Agent performance: 3027
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 18 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 18 -) (V - -) (V - -)
<STEP 297>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 17 -) (V - -) (V - -)
Agent performance: 3037
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 17 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 17 -) (V - -) (V - -)
<STEP 298>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 16 -) (V - -) (V - -)
Agent performance: 3047
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 16 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 16 -) (V - -) (V - -)
<STEP 299>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 15 -) (V - -) (V - -)
Agent performance: 3057
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 15 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 15 -) (V - -) (V - -)
<STEP 300>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 14 -) (V - -) (V - -)
Agent performance: 3067
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 14 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 14 -) (V - -) (V - -)
<STEP 301>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 13 -) (V - -) (V - -)
Agent performance: 3077
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 13 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 13 -) (V - -) (V - -)
<STEP 302>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 12 -) (V - -) (V - -)
Agent performance: 3087
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 12 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 12 -) (V - -) (V - -)
<STEP 303>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 11 -) (V - -) (V - -)
Agent performance: 3097
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 11 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 11 -) (V - -) (V - -)
<STEP 304>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 10 -) (V - -) (V - -)
Agent performance: 3107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 10 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 10 -) (V - -) (V - -)
<STEP 305>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 9 -) (V - -) (V - -)
Agent performance: 3117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 9 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 9 -) (V - -) (V - -)
<STEP 306>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 8 -) (V - -) (V - -)
Agent performance: 3127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 8 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 8 -) (V - -) (V - -)
<STEP 307>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 7 -) (V - -) (V - -)
Agent performance: 3137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 7 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 7 -) (V - -) (V - -)
<STEP 308>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 6 -) (V - -) (V - -)
Agent performance: 3147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 6 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 6 -) (V - -) (V - -)
<STEP 309>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 5 -) (V - -) (V - -)
Agent performance: 3157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 5 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 5 -) (V - -) (V - -)
<STEP 310>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 4 -) (V - -) (V - -)
Agent performance: 3167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 4 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 4 -) (V - -) (V - -)
<STEP 311>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 3 -) (V - -) (V - -)
Agent performance: 3177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 3 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 3 -) (V - -) (V - -)
<STEP 312>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 2 -) (V - -) (V - -)
Agent performance: 3187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 2 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 2 -) (V - -) (V - -)
<STEP 313>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 1 -) (V - -) (V - -)
Agent performance: 3197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L 1 -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V 1 -) (V - -) (V - -)
<STEP 314>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V - -) (V - -) (V - -)
Agent performance: 3207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (- 17 -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (- 17 -) (V - -) (V - -) (V - -)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 16 -) (V - -) (V - -) (V - -)
Agent performance: 3216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 16 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 16 -) (V - -) (V - -) (V - -)
<STEP 316>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 15 -) (V - -) (V - -) (V - -)
Agent performance: 3226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 15 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 15 -) (V - -) (V - -) (V - -)
<STEP 317>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 14 -) (V - -) (V - -) (V - -)
Agent performance: 3236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 14 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 14 -) (V - -) (V - -) (V - -)
<STEP 318>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 13 -) (V - -) (V - -) (V - -)
Agent performance: 3246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 13 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 13 -) (V - -) (V - -) (V - -)
<STEP 319>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 12 -) (V - -) (V - -) (V - -)
Agent performance: 3256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 12 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 12 -) (V - -) (V - -) (V - -)
<STEP 320>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 11 -) (V - -) (V - -) (V - -)
Agent performance: 3266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 11 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 11 -) (V - -) (V - -) (V - -)
<STEP 321>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 10 -) (V - -) (V - -) (V - -)
Agent performance: 3276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 10 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 10 -) (V - -) (V - -) (V - -)
<STEP 322>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 9 -) (V - -) (V - -) (V - -)
Agent performance: 3286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 9 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 9 -) (V - -) (V - -) (V - -)
<STEP 323>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 8 -) (V - -) (V - -) (V - -)
Agent performance: 3296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 8 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 8 -) (V - -) (V - -) (V - -)
<STEP 324>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 7 -) (V - -) (V - -) (V - -)
Agent performance: 3306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 7 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 7 -) (V - -) (V - -) (V - -)
<STEP 325>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 6 -) (V - -) (V - -) (V - -)
Agent performance: 3316
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 6 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 6 -) (V - -) (V - -) (V - -)
<STEP 326>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 5 -) (V - -) (V - -) (V - -)
Agent performance: 3326
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 5 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 5 -) (V - -) (V - -) (V - -)
<STEP 327>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 4 -) (V - -) (V - -) (V - -)
Agent performance: 3336
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 4 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 4 -) (V - -) (V - -) (V - -)
<STEP 328>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 3 -) (V - -) (V - -) (V - -)
Agent performance: 3346
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 3 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 3 -) (V - -) (V - -) (V - -)
<STEP 329>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 2 -) (V - -) (V - -) (V - -)
Agent performance: 3356
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 2 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 2 -) (V - -) (V - -) (V - -)
<STEP 330>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 1 -) (V - -) (V - -) (V - -)
Agent performance: 3366
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L 1 -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V 1 -) (V - -) (V - -) (V - -)
<STEP 331>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3376
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- 18 -) (L - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (- 18 -) (V - -) (V - -) (V - -) (V - -)
<STEP 332>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 17 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3385
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (L 17 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 17 -) (V - -) (V - -) (V - -) (V - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 16 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3394
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 16 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 16 -) (V - -) (V - -) (V - -) (V - -)
<STEP 334>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 15 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3404
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 15 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 15 -) (V - -) (V - -) (V - -) (V - -)
<STEP 335>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 14 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3414
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 14 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 14 -) (V - -) (V - -) (V - -) (V - -)
<STEP 336>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 13 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3424
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 13 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 13 -) (V - -) (V - -) (V - -) (V - -)
<STEP 337>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 12 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3434
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 12 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 12 -) (V - -) (V - -) (V - -) (V - -)
<STEP 338>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 11 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3444
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 11 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 11 -) (V - -) (V - -) (V - -) (V - -)
<STEP 339>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 10 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3454
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 10 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 10 -) (V - -) (V - -) (V - -) (V - -)
<STEP 340>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 9 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3464
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 9 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 9 -) (V - -) (V - -) (V - -) (V - -)
<STEP 341>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 8 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3474
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 8 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 8 -) (V - -) (V - -) (V - -) (V - -)
<STEP 342>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 7 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3484
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 7 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 7 -) (V - -) (V - -) (V - -) (V - -)
<STEP 343>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 6 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3494
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 6 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 6 -) (V - -) (V - -) (V - -) (V - -)
<STEP 344>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 5 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3504
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 5 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 5 -) (V - -) (V - -) (V - -) (V - -)
<STEP 345>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 4 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3514
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 4 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 4 -) (V - -) (V - -) (V - -) (V - -)
<STEP 346>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 3 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3524
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 3 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 3 -) (V - -) (V - -) (V - -) (V - -)
<STEP 347>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3534
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 2 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - -)
<STEP 348>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3544
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U 1 -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - -)
<STEP 349>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3554
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (- 9 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 350>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3563
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (U 8 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 8 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 351>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3573
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (U 7 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 7 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 352>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3583
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (U 6 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 6 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 353>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3593
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (U 5 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 5 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 354>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3603
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (U 4 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 4 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 355>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3613
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (U 3 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 3 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 356>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3623
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (U 2 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 2 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 357>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3633
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (U 1 -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V 1 -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 358>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3643
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (U - -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 359>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3642
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (R - -) (- 20 1) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (- 20 1) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 360>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3646
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 19 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 19 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 361>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 18 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 18 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 362>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3666
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 17 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 17 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 363>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 16 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 16 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 364>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3686
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 15 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 15 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 365>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3696
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 14 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 14 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 366>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3706
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 13 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 13 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 367>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 12 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3716
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 12 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 12 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 368>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 11 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3726
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 11 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 11 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 369>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 10 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3736
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 10 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 10 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 370>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 9 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3746
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 9 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 9 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 371>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 8 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3756
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 8 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 8 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 372>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 7 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3766
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 7 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 7 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 373>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 6 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3776
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 6 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 6 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 374>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 5 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3786
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 5 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 5 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 375>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 4 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3796
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 4 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 4 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 376>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 3 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3806
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 3 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 3 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 377>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 2 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3816
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 2 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 2 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 378>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 1 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3826
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R 1 -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V 1 -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 379>
SELECTED ACTION: Stay
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3836
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (R - -) (- 24 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (- 24 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 380>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 23 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3845
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 23 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 23 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 381>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 22 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3855
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 22 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 22 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 382>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 21 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3865
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 21 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 21 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 383>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 20 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3875
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 20 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 20 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 384>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 19 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3885
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 19 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 19 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 385>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 18 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3895
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 18 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 18 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 386>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 17 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3905
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 17 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 17 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 387>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 16 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3915
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 16 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 16 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 388>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 15 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3925
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 15 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 15 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 389>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 14 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3935
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 14 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 14 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 390>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 13 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3945
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 13 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 13 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 391>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 12 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3955
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 12 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 12 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 392>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 11 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3965
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 11 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 11 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 393>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 10 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3975
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 10 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 10 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 394>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 9 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3985
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 9 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 9 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 395>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 8 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3995
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 8 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 8 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 396>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 7 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4005
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 7 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 7 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 397>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 6 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4015
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 6 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 6 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 398>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 5 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4025
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 5 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 5 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 399>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 4 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4035
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 4 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 4 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 400>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 3 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4045
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 3 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 3 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 401>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 2 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4055
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 2 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 2 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 402>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 1 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4065
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R 1 -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V 1 -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 403>
SELECTED ACTION: Stay
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4075
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (R - -) (- 25 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (- 25 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 404>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 24 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4084
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 24 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 24 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 405>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 23 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4094
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 23 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 23 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 406>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 22 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 22 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 22 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 407>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 21 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 21 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 21 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 408>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 20 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 20 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 409>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 19 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 19 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 19 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 410>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 18 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 18 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 18 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 411>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 17 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 17 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 17 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 412>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 16 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 16 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 16 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 413>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 15 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 15 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 15 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 414>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 14 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 14 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 14 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 415>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 13 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 13 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 13 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 416>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 12 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 12 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 12 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 417>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 11 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 11 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 11 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 418>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 10 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 10 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 10 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 419>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 9 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 9 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 9 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 420>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 8 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 8 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 8 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 421>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 7 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 7 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 7 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 422>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 6 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 6 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 6 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 423>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 5 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 5 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 5 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 424>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 4 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 425>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 426>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 427>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 428>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4324
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (R - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 429>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4323
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 430>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4322
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 431>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4321
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (- 22 -) (- - -)
3 (- - -) (- - -) (- - -) (U - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (- 22 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 432>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 21 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4330
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 21 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 21 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 433>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 20 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4340
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 20 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 20 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 434>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 19 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4350
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 19 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 19 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 435>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 18 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4360
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 18 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 18 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 436>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 17 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4370
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 17 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 17 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 437>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 16 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4380
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 16 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 16 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 438>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 15 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4390
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 15 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 15 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 439>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 14 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4400
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 14 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 14 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 440>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 13 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4410
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 13 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 13 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 441>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 12 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4420
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 12 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 12 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 442>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 11 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4430
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 11 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 11 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 443>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4440
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 10 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 10 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 444>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 9 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4450
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 9 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 9 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 445>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 8 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4460
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 8 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 8 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 446>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 7 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4470
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 7 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 7 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 447>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 6 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4480
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 6 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 6 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 448>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4490
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 5 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 5 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 449>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 4 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4500
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 4 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 4 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 450>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4510
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 3 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 3 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 451>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4520
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 2 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 2 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 452>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4530
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U 1 -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V 1 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 453>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4540
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (- 17 -) (- - -)
2 (- - -) (- - -) (- - -) (U - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (- 17 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 454>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 16 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 16 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 16 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 455>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 15 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4559
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 15 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 15 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 456>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 14 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4569
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 14 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 14 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 457>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 13 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4579
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 13 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 13 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 458>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 12 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4589
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 12 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 12 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 459>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 11 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4599
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 11 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 11 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 460>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 10 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4609
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 10 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 10 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 461>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 9 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4619
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 9 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 9 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 462>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 8 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4629
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 8 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 8 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 463>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 7 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4639
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 7 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 7 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 464>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 6 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 6 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 6 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 465>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 5 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 5 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 466>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 4 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4669
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 4 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 4 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 467>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4679
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 3 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 3 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 468>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4689
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 2 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 2 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 469>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4699
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U 1 -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V 1 -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 470>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4709
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (U - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 471>
SELECTED ACTION: Turn
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4708
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (R - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 472>
SELECTED ACTION: Turn
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4707
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (D - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 473>
SELECTED ACTION: Turn
Agent state: (3, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4706
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (- 15 1) (L - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (- 15 1) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 474>
SELECTED ACTION: Advance
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 14 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4710
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 14 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 14 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 475>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 13 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4720
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 13 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 13 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 476>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 12 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4730
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 12 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 12 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 477>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 11 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4740
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 11 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 11 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 478>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 10 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4750
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 10 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 10 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 479>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 9 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4760
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 9 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 9 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 480>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 8 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4770
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 8 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 8 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 481>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 7 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4780
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 7 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 7 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 482>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 6 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4790
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 6 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 6 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 483>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 5 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4800
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 5 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 5 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 484>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 4 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4810
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 4 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 4 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 485>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4820
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 3 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 3 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 486>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4830
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 2 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 2 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 487>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4840
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L 1 -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V 1 -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 488>
SELECTED ACTION: Stay
Agent state: (2, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4850
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (- 19 -) (L - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (- 19 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 489>
SELECTED ACTION: Advance
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 18 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4859
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 18 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 18 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 490>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 17 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4869
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 17 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 17 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 491>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 16 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4879
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 16 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 16 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 492>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 15 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4889
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 15 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 15 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 493>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 14 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4899
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 14 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 14 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 494>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 13 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4909
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 13 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 13 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 495>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 12 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4919
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 12 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 12 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 496>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 11 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4929
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 11 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 11 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 497>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 10 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4939
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 10 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 10 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 498>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 9 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4949
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 9 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 9 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 499>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 8 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4959
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 8 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 8 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 500>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 7 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4969
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 7 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 7 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 501>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 6 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4979
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 6 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 6 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 502>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 5 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4989
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 5 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 5 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 503>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 4 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4999
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 4 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 4 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 504>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5009
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 3 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 3 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 505>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 2 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5019
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 2 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 2 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 506>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5029
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L 1 -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V 1 -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
<STEP 507>
SELECTED ACTION: Stay
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5039
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - -) (L - -) (- - -) (- - -) (- - -)
2 (- - -) (- - -) (- - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - -) (V - -) (V - -) (V - -) (V - -)
2 (V - -) (V - -) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
fig, ax = plt.subplots(2,2)
plot_pro_arrays(array1_5, ax[0,0], '5 traps, 1 gold', '.', [9,7,5,2])
plot_pro_arrays(array10_5, ax[0,1], '5 traps, 10 gold', '.', [5,2,2,2])
plot_pro_arrays(array100_5, ax[1,0], '5 traps, 100 gold', '.', [9,7,5,2])
plot_pro_arrays(array500_5, ax[1,1], '5 traps, 500 gold', '.', [9,7,5,2])
fig.set_size_inches(18.5, 10.5)
fig.savefig('vary_gold.jpg', dpi=200)
total_golds = 100
total_traps = 100
things = []
for i in range(total_golds):
x = randrange(width)
y = randrange(height)
things.append(Gold((x,y)))
while total_traps > 0:
total_traps -= 1
x = randrange(width)
y = randrange(height)
things.append(Trap((x,y)))
def run_experiment(env_observable, reflex, position):
width = 5
height = 5
directions = [Direction.U, Direction.R, Direction.D, Direction.L]
agent_x = position[0]
agent_y = position[1]
agent_dir = directions[0]
n = randrange(1000)
print(n)
seed(n)
if reflex:
agent = ReflexGoldDiggerAgent((agent_x, agent_y), Direction(agent_dir))
environment = GridEnvironment(things = things, agent = agent, fully_observable = env_observable, width = width, height = height)
environment.run()
model_score_history = environment.score_history
else:
agent = ModelGoldDiggerAgent((agent_x, agent_y), Direction(agent_dir))
environment = GridEnvironment(things = things, agent = agent, fully_observable = env_observable, width = width, height = height)
environment.run()
model_score_history = environment.score_history
return(model_score_history)
Obs_reflex = []
for i in range(5):
inner_array = []
for j in range(5):
exp = run_experiment(True, True, [i,j])
inner_array.append(exp)
Obs_reflex.append(inner_array)
Obs_model = []
for i in range(5):
inner_array = []
for j in range(5):
exp = run_experiment(True, False, [i,j])
inner_array.append(exp)
Obs_model.append(inner_array)
NObs_reflex = []
for i in range(5):
inner_array = []
for j in range(5):
exp = run_experiment(False, True, [i,j])
inner_array.append(exp)
NObs_reflex.append(inner_array)
Nobs_model = []
for i in range(5):
inner_array = []
for j in range(5):
exp = run_experiment(False, False, [i,j])
inner_array.append(exp)
Nobs_model.append(inner_array)
875
<STARTING>
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (R 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (R 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 3 2) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (R 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (V 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (R 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (V 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 1 -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (R - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (V - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (R 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (V 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (U - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (V - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (R - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (V - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (R 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (V 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (- 2 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (- 2 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (- 2 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (- 2 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (- 2 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (- 2 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (- 2 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (L 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (- - 2) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (L - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 1 -) (V - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (D 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (D 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (D - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (U - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (U - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (U 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (U - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (D 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (U 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (D - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (L 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (V 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 2) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (U - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (V - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (D - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (D - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (V - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (D - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (L 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (U 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (U - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (D 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (D 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (V 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (D - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (L - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (U - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (U - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (V - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (U - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 332>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 334>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 335>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 336>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 337>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 338>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: -1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
685
<STARTING>
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (- 2 2) (- 7 5)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (- 7 5)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 6 4)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (V 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (R 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (L 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (D 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (D 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (D - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (U - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (U - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (U 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (U - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (D 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (U 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (D - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (L 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (V 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 2) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (U - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (V - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (D - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (D - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (V - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (D - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (L 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (U 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (U - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (D 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (D 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (V 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (D - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (L - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (U - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (U - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (V - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (U - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: -1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
319
<STARTING>
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R 1 1) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V 1 1) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 6 4)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (R 6 4)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 6 4)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (D 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 4 2)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 4 2)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 4 2)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (U 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 4) (- 4 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 4) (- 4 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 3 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (V 3 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (R - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 2 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (R 2 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (V 2 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (D 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (V 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (U 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (V 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - 3) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 3) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 2) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 2) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V 1 -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (R 2 -) (- - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V 2 -) (- - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V 1 -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (R - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (V - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (R - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (D - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (L - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (L - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (L 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (D 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (D 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (D - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (U - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (U - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (U 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (U - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 113>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (D 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (V 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (U 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (D - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (L 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (V 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 2) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (U - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (V - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (D 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (D 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (V 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (D 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (1, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (D - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (V - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (L - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (V - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (U - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (V - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (U 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (U - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (V - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (U - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 332>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
696
<STARTING>
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (U 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R 1 1) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V 1 1) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 6 4)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (R 6 4)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 6 4)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (D 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 4 2)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 4 2)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 4 2)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (U 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 4) (- 4 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 4) (- 4 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 3 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (V 3 -) (- - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 3 1)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (R - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- 3 1)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 2 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (R 2 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (V 2 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (D 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (V 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 78>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (U 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (V 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - 3) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 3) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 2) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 2) (- 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V 1 -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (R 2 -) (- - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V 2 -) (- - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V 1 -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (R - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (V - -) (- 1 -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (R - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (D - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (L - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (L - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 2 -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (L 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (D 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (V 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (D 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (D - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (U - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (U - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (U 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (U - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (D 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (V 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 120>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (U 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (V 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (D - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (V - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 140>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (L 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (V 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 2) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (U - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (V - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (D 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (D 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (V 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (D 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (1, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (D - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (V - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (L - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (V - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (U - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (V - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (U 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (U - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (V - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (U - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
838
<STARTING>
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (U 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- 2 2) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R 1 1) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V 1 1) (- 7 5)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 6 4)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (R 6 4)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 6 4)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (D 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V 1 1) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- 1 1) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 5 3)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 5 3)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 4 2)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 4 2)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 4 2)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (R - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V 1 -) (V 6 1) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (R 4 3) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 4 3) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (R - -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (V - -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (R 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (V 5 -) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 47>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 4 -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (L 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (V 4 -) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 4 -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (L - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (V - -) (- 4 -) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (L 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 3 2) (- - -) (- 4 -) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (R - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 4 -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (R 2 1) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 2 1) (- - -) (- 4 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 4 -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (R - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (V - -) (- 4 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (R 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (V 3 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 2 -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (V 2 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 2 -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (L - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (V - -) (- 2 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (L 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 1 -) (- - -) (- 2 -) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (R - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 2 -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (R - -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V - -) (- - -) (- 2 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 2 -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (R - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (V - -) (- 2 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (R 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (V 1 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 73>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (U 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (V 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (U 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (V 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (U 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (V 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (U - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 78>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 80>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (D 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (V 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 86>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (U - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 88>
SELECTED ACTION: Turn
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (L 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (V 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (L 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (V 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (L 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (V 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (L - 2) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (V - 2) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (U - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (V - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (U - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (U 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 -) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 4) (- 4 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 4) (- 4 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (V 3 -) (- - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (R - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- 1 -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (R - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (V - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (D - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (V - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (L - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (V - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (L - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 2 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (L 2 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (V 2 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - 3) (- 2 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 3) (- 2 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (D - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (V - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (D - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (V - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 1) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (D - -) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (V - -) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (L - -) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (V - -) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (U - -) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (V - -) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 4 5) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (R - -) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (V - -) (- 4 5) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 3 4) (V 1 1) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (R 3 4) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (V 3 4) (- 1 1) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 3 4) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (R - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (V - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 3 4) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (- - -) (R 6 2) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (- - -) (V 6 2) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 3 4) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (- - -) (- 6 2) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (- - -) (- 6 2) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 3 4) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (- - -) (- 6 2) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (- - -) (- 6 2) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 3 4) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (- - -) (- 6 2) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (- - -) (- 6 2) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 3 4) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (- - -) (L 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (- - -) (V 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 3 4) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (L - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 3 4) (V - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 2 3) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (L 2 3) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (V 2 3) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 2 3) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (L - -) (- 2 3) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (V - -) (- 2 3) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 2 3) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (U - -) (- 2 3) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (V - -) (- 2 3) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 2 3) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (R - -) (- 2 3) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (V - -) (- 2 3) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 1 2) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (R 1 2) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (V 1 2) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 1 2) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (R - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (V - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 1 2) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (- - -) (R 4 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (- - -) (V 4 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 1 2) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (- - -) (- 4 -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (- - -) (- 4 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 1 2) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (- - -) (- 4 -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (- - -) (- 4 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 1 2) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (- - -) (- 4 -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (- - -) (- 4 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 1 2) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (- - -) (L 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (- - -) (V 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V 1 2) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (L - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- 1 2) (V - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (L - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (V - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (L - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (V - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (U - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (V - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (R - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (V - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (R - -) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (V - -) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (R - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (V - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (R 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (V 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 2 -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 2 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 2 -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 2 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 2 -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 2 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (L 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (V 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (L - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (V - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (U - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - -) (- - -) (V - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 4 2) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (U 4 2) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (V 4 2) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 2 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V 1 3) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 4 2) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (U 1 3) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 4 2) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- 2 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (V 1 3) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 4 2) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V 1 -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V 1 3) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 4 2) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U 1 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 1 3) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 4 2) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V 1 -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 1 3) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 4 2) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V 1 3) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 4 2) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 1 3) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 4 2) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 1 3) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 4 2) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V 1 3) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 4 2) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (D - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 1 3) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 4 2) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 1 3) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 4 2) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 4 2) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (D - 2) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 4 2) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (V - 2) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 4 2) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 3 1) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (D 3 1) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (V 3 1) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 3 1) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 3 1) (- 2 1) (- - -)
3 (- - -) (- - -) (D - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 3 1) (- 2 1) (- - -)
3 (- - -) (- - -) (V - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 3 1) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 3 1) (- 2 1) (- - -)
3 (- - -) (- - -) (L - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 3 1) (- 2 1) (- - -)
3 (- - -) (- - -) (V - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 3 1) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 3 1) (- 2 1) (- - -)
3 (- - -) (- - -) (U - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 3 1) (- 2 1) (- - -)
3 (- - -) (- - -) (V - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (U 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (V 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (U - 1) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (V - 1) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (D - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V 1 2) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (D 1 2) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (V 1 2) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V 1 2) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V 1 -) (V - -)
3 (V - -) (V - -) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (D 1 -) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (V 1 -) (- - -)
3 (- - -) (- - -) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V 1 2) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V 1 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - -) (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V 1 2) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V 1 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - -) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V 1 2) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V 1 -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - -) (- - -) (U - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - -) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V 1 2) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (U - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (V - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (U - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (V - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (U - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: -2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 3 4) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
520
<STARTING>
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (U 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (R 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (R 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (R 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (V 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (R 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (V 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 73>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (R 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (V 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (- 2 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (- 2 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (- 2 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (- 2 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (- 2 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (- 2 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (- 2 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (L 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 2) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (D 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (D 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (D - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (U - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (U - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (U 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (U - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (D 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 115>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (U 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (D - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 127>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (L 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (V 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 2) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (U - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (V - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (D - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (D - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (V - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (D - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (L 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (U 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (U - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (D 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (D 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (V 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (D - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (L - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (U - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (U - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (V - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (U - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
965
<STARTING>
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (U 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (U 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (R 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (R 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 6 4)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R - 4) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V - 4) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (R 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (V 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 5 3)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 4 2)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 2 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 1) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 1) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (R 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (V 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (L 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (D 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (D 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (D - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (U - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (U - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (U 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (U - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (D 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (U 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (D - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (L 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (V 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 2) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (U - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (V - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (D - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (D - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (V - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (D - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (L 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (U 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (U - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (D 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (D 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (V 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (D - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (L - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (U - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (U - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (V - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (U - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
979
<STARTING>
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (U 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (U 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (U 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (R 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (R 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 6 4)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R - 4) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V - 4) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (R 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (V 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (R - -) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (V - -) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 4 2)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (R 4 2)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (V 4 2)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (D 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (V 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (U 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (V 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (R - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 2 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (R 2 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V 2 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (D 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (U 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (V 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 1) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 1) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (R 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (V 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (R - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (V - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (R - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (D - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (L - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (L - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (L 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (D 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (V 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (D 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (D - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (U - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (U - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (U 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (U - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (V - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (D 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (V 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (U 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (D - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (L 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (V 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 2) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (U - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (V - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (D - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (D - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (V - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (D - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (L 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (U 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (U - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (V - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (D - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (D 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (V 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (D - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (L - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (U - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (U - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (V - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (U - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (D - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (L - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (U - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (D - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (1, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (L - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (U - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (U - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - -) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- - -) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
353
<STARTING>
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (U 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (U 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (U 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (U 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (R 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (R 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 6 4)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R - 4) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V - 4) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (R 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (V 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (R - -) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (V - -) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 4 2)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (R 4 2)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (V 4 2)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (D 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (V 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (U 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (V 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (R - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 2 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (R 2 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V 2 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (D 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (U 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (V 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 1) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 1) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (R 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (V 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (R - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (V - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (R - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (D - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (L - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (L - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (L 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (D 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (V 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (V 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (D 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (D - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (U - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (U - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (U 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (U - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (V - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 113>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (D 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (V 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (U 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (V 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (D - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (V - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (L 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (V 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 2) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (L - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (U - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (V - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (D - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (D - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (V - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (L - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (R 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (L 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (L - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (R - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (U 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (V 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (U - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (V - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (R - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (D - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (L - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (V - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (L - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (L - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (L - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (1, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (D - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Advance
Agent state: (1, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (D - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (V - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (1, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (D - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (V - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (1, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (D - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (1, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (D - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (V - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (L - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (V - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (U - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (V - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (R - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (V - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (R - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (V - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 2 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 2 -) (- - -) (- - -)
3 (- - -) (- - -) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 1 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (U 1 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- - 1) (V 1 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - -) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 1 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (U - -) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 1 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (V - -) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 1 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - -) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 1 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (R - -) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 1 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (V - -) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 1 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - -) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V 1 -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (D - -) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 1 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (V - -) (- - 1) (- - 5)
2 (- - 4) (- - 1) (- 1 -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - -) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - -) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - -) (- - 1) (- - 5)
2 (- - 4) (- - 1) (D - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - -) (- - 1) (- - 5)
2 (- - 4) (- - 1) (V - -) (- - -) (- - -)
3 (- - -) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
608
<STARTING>
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (U 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (U 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (U 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (U 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (U 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (R 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (R 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 6 4)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 1 5) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 1 5) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R - 4) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V - 4) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (R 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (V 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 5 3)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (R - -) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (V - -) (- 5 3)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 4 2)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (R 4 2)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (V 4 2)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (D 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (V 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (U 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (V 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- - 4) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (R - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- 3 1)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 2 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (R 2 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V 2 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (D 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 78>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (U 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (V 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 2) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 1) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 1) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (R 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (V 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (R - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (V - -) (- 1 -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (R - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (D - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (L - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (L - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (- 2 -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (L 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 1) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (D 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (V 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (V 4 2) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (D 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (V 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (D - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (U - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (U - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (U 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (U - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (V - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (U - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (D 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (V 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (D 2 1) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V 2 1) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 3 4) (- - -) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 3 4) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 120>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 3 4) (- - -) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 3 4) (- - -) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (U 1 -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V 1 -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (U 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (V 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (U - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (R - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (D - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (V - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (D - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (V - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 140>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 315
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 3 4) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (L 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 3) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 2) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (L - 2) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - 2) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 2 4) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (U - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 2 4) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (V - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (U 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (D - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (V - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (D - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (V - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (L - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (R 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- 1 2) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- 1 2) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- 1 2) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (L - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (L - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 332>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 334>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 335>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 336>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 337>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 338>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 339>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 340>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 341>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 342>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 343>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 344>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 345>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 346>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- - 2) (- 1 2) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 1 2) (- 3 1) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
134
<STARTING>
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (U 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (R 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 73>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 2 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 2 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 2 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 2 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 2 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 2 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 2 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 2 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (L 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - 2) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 2) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (D 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (D - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (V - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (D - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (V - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (D - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (R - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (R - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 106>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 107>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (U 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (U 2 1) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (V 2 1) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (U 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (V 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (U - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (R - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 113>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (D - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (D 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (V 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (D 1 -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (V 1 -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (D 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (U 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (U - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (V - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (U - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (R - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (D - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (D - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (V - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (D 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (U 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (D 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (U 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (D 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (- 2 2) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (L 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 4 5) (V 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (L 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 2) (V 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (L - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (U - -) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - -) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (R - -) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - -) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (R 2 3) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (V 2 3) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- 2 3) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- 2 3) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- 2 3) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (L 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (L - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (U - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (R - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (R - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (U 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (V 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (U 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (U - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (D - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (D - 2) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V - 2) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - -) (- - 5)
2 (- - 5) (- 2 3) (D 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - -) (- - 5)
2 (- - 5) (- 2 3) (V 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - -) (- - 5)
2 (- - 5) (- 2 3) (U 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - -) (- - 5)
2 (- - 5) (- 2 3) (V 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (U - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (U - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (R - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (R - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (V - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (D - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (V - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (L - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (V - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (L - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (L - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (U - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (R - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (D - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (V - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (D - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (V - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (D - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (L - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (L 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (- 2 3) (V 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 5) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (L 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 5) (V 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 4) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (L - 4) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (V - 4) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (U - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - -) (- - 5)
2 (V - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (U - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (V - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 332>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 334>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 335>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 336>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 337>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 338>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 339>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 340>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 341>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 342>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 343>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 344>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 345>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 346>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 347>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 348>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 349>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 350>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 351>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 352>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 353>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 354>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 355>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 356>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 357>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 358>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 359>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 360>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 361>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 362>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 363>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 364>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 365>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 366>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 367>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 368>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 369>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 370>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 371>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 372>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 373>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 374>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 375>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 376>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 377>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 378>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 379>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 380>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 381>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 382>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 383>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 384>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 385>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 386>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 387>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 388>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 389>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 390>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 391>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 392>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 393>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 394>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 395>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 396>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 397>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 398>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 399>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 400>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 401>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 402>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 403>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 404>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 405>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 406>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 407>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 408>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 409>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 410>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 411>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 412>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 413>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 414>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 415>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 416>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 417>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 418>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 419>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 420>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 421>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 422>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 423>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 424>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 425>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 426>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 427>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 428>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 429>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 430>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 431>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 432>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 433>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 434>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 435>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 436>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 437>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 438>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 439>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - -) (V - 5)
2 (V - 3) (V 1 2) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - -) (- - 5)
2 (- - 3) (- 1 2) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
743
<STARTING>
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (U 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (U 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (R 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 3 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 3 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 2 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 2 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 73>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 4) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 1 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 1 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (L - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (U - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (D - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (D 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (D 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (D - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (U - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (U - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (U 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (U - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (U - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (D 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (U 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (D - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 316
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 318
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 315
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 315
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 316
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 140>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 318
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 315
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 320
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 319
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 318
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 317
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 324
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 323
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 322
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 319
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 316
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 318
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (L 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (V 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 2) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (U - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (V - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 319
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 318
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 320
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (V - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (D - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (V - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (D - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (L 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (U 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (U - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (L - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (R - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (D - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (L - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (V - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: -2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (L - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
716
<STARTING>
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (U 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (U 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (U 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (R 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 3 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 3 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 2 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 2 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 4) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 1 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 1 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (L - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (U - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (D - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (D - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (D 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (D - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (U - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (U - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (U 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (U - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (U - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (D 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (V 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 113>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (U 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (D - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 140>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 316
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 315
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (- 4 5) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (L 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 3) (V 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 2) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (U - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (V - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (V - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (D - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (V - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (D - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (L 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (L - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (U - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (R - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (R - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (U 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (U - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (R - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (D - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (D 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (U - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (2, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (R - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (D - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (L - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (L 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (V 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 3) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (L - 3) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (V - 3) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (U - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (V - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (V - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 332>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 334>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 335>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 336>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 337>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 338>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 339>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 340>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 341>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 342>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 343>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 344>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 345>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 346>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 347>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 348>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 349>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 350>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 351>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 352>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 353>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 354>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 355>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 356>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 357>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 358>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 359>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 360>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 361>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 362>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 363>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 364>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 365>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 366>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 367>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 368>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 369>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 370>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 371>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 372>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 373>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 374>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 375>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 376>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 377>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 378>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 379>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 380>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 381>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 382>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 383>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 384>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 385>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 386>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 387>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 388>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 389>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 390>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 391>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 392>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 393>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 394>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 395>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 396>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 397>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 398>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 399>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 400>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 401>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 402>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 403>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 404>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 405>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 406>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 407>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 408>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 409>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 410>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 411>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 412>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 413>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 414>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 415>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 416>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 417>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 418>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 419>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 420>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 421>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 422>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 423>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 424>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 425>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 426>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 427>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 428>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 429>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 430>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 431>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 432>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 433>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 434>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 435>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 436>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 437>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 438>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 439>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 440>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 441>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 442>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 443>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 444>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 445>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 446>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 447>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 448>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 449>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 450>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 451>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 452>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 453>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 454>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 455>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 456>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
167
<STARTING>
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (U 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (U 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (U 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (U 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (R 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 3 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 3 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 2 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 2 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 4) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 1 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 1 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (L - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (U - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (D - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (D - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (D 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (D 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (2, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (D - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Turn
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (U - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (U - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (U 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (U - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (U - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (D 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (V 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 113>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (U 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (D - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 142>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (U - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (R - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (D - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 318
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 317
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 316
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 4 5) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (- 4 5) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 3) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (L 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 3) (V 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 2) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (L - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (V - 2) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (U - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 2 -) (- - -) (- - -)
3 (V - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (U - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (V - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (V - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (D - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (V - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - 1) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (D - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (L - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (U - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (R - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (V - -) (- 3 4) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (R 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- 2 3) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- 2 3) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- 2 3) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- 2 3) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (L 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (L - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (U - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (R - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (V - -) (- 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (R - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (U 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (U - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (R - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (D - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (D - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (L - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (L 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (V 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 3) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (L - 3) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (V - 3) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (U - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (V - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (V - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 332>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 334>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 335>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 336>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 337>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 338>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 339>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 340>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 341>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 342>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 343>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 344>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 345>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 346>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 347>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 348>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 349>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 350>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 351>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 352>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 353>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 354>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 355>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 356>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 357>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 358>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 359>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 360>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 361>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 362>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 363>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 364>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 365>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 366>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 367>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 368>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 369>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 370>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 371>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 372>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 373>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 374>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 375>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 376>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 377>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 378>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 379>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 380>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 381>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 382>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 383>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 384>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 385>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 386>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 387>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 388>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 389>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 390>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 391>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 392>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 393>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 394>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 395>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 396>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 397>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 398>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 399>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 400>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 401>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 402>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 403>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 404>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 405>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 406>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 407>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 408>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 409>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 410>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 411>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 412>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 413>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 414>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 415>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 416>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 417>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 418>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 419>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 420>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 421>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 422>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 423>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 424>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 425>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 426>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 427>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 428>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 429>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 430>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 431>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 432>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 433>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 434>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 435>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 436>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 437>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 438>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 439>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 440>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 441>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 442>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 443>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 444>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 445>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 446>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 447>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 448>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 449>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 450>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 451>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 452>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 453>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 454>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 455>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 456>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 457>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 458>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
234
<STARTING>
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (U 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (U 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (U 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (U 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (U 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (R 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (- 3 4)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (V 2 3)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 3 2) (- 8 3) (V 1 2)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 3 2) (V 7 2) (V 1 2)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 4 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 4 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 3 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 3 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 3 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 2 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 2 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 4) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 2 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 1 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 1 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (L - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (U - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V 1 3) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (D - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 1 3) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (D - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (V - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 4 2) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (D 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (V 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 1 1) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (D - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (L - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (L 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 3) (V 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 2) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (L - 2) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (V - 2) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 1) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (U - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (V - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 1) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (U - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (V - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 1) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- - -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 1) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 1 -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 107>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 1) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 108>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 1) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 5) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 1) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (V - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 5) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - 1) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (D - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (V - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - 1) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (D - -) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (V - -) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (L - -) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (V - -) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 113>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (U - -) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (V - -) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 3 4) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (R - -) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (V - -) (- 3 4) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 2 3) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (R 2 3) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (V 2 3) (- - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 2 3) (V - -) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (R - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (V - -) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 2 3) (V - -) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (- - -) (R 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (- - -) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 2 3) (V - -) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (- - -) (- 8 4) (R - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (- - -) (- 8 4) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 2 3) (V - -) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (- - -) (- 8 4) (D - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (- - -) (- 8 4) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 120>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 2 3) (V - -) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (- - -) (- 8 4) (L - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (- - -) (- 8 4) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 2 3) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (- - -) (L 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (- - -) (V 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 2 3) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (L - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- 2 3) (V - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 1 2) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (L 1 2) (- - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (V 1 2) (- - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 1 2) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (L - -) (- 1 2) (- - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (V - -) (- 1 2) (- - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 1 2) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (U - -) (- 1 2) (- - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (V - -) (- 1 2) (- - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V 1 2) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (R - -) (- 1 2) (- - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (V - -) (- 1 2) (- - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (R - 1) (- - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (V - 1) (- - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (R - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (V - -) (- 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (R 6 2) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (V 6 2) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 6 2) (R - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 6 2) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 6 2) (D - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 6 2) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 6 2) (L - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 6 2) (V - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (L 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (V 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (L - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (V - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 3 1) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (U - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 3 1) (- 3 2) (- - -)
3 (- - -) (- - 1) (V - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 2) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (U 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 2) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (V 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (U - 1) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - 1) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (2, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (U - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (V - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (- 3 4) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (D - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 3 4) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (- 3 2) (V - -)
3 (V - -) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (D 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (V 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 3 2) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (D 2 1) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (V 2 1) (- - -)
3 (- - -) (- - 1) (- - -) (- 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - 1) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - 1) (- - -) (D 4 -) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - 1) (- - -) (V 4 -) (- - -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - 1) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - 1) (- - -) (- 4 -) (- - -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - 1) (- - -) (- 4 -) (- - -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - 1) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - 1) (- - -) (- 4 -) (- - -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - 1) (- - -) (- 4 -) (- - -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - 1) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - 1) (- - -) (- 4 -) (- - -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - 1) (- - -) (- 4 -) (- - -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V 2 1) (V - -)
3 (V - -) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - 1) (- - -) (U 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 2 1) (- - -)
3 (- - -) (- - 1) (- - -) (V 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V 2 3) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V 1 -) (V - -)
3 (V - -) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (U 1 -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 2 3) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (V 1 -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V 1 2) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V 1 -) (V - -)
3 (V - -) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (U 1 2) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (V 1 2) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V 1 2) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V 1 -) (V - -)
3 (V - -) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (U - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V 1 2) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V 1 -) (V - -)
3 (V - -) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (R - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V 1 2) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V 1 -) (V - -)
3 (V - -) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (D - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (V - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- 1 2) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V 1 -) (V - -)
3 (V - -) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (D - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (V - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- 1 -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (D - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (D 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (V 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 159>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 2 -) (- - -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (U 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (V 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (U - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (R - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (D - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (V - -) (- - -)
3 (- - -) (- - 1) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (2, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (U - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (V - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 2 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (U - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 2 -) (- - -) (- - -)
3 (- - -) (- - 1) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (2, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (U 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Advance
Agent state: (2, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (U - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (R - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V 1 -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (D - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (V - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (- 1 -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (D - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (L - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (- 2 3) (V - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (L 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 4) (V 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 3) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (L - 3) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (V - 3) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (U - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 2 3) (- - -) (- - 1) (- - 5)
2 (V - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (V - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 332>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 334>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 335>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 336>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 337>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 338>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 339>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 340>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 341>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 342>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 343>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 344>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 345>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 346>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 347>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 348>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 349>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 350>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 351>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 352>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 353>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 354>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 355>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 356>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 357>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 358>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 359>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 360>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 361>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 362>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 363>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 364>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 365>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 366>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 367>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 368>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 369>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 370>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 371>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 372>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 373>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 374>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 375>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 376>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 377>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 378>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 379>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 380>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 381>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 382>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 383>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 384>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 385>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 386>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 387>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 388>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 389>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 390>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 391>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 392>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 393>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 394>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 395>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 396>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 397>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 398>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 399>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 400>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 401>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 402>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 403>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 404>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 405>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 406>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 407>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 408>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 409>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 410>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 411>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 412>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 413>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 414>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 415>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 416>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 417>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 418>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 419>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 420>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 421>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 422>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 423>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 424>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 425>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 426>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 427>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 428>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 429>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 430>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 431>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 432>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 433>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 434>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 435>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 436>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 437>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 438>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 439>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 440>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 441>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 442>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 443>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 444>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 445>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 446>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 447>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 448>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 449>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 450>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 451>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 452>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 453>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 454>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 455>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 456>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 457>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 458>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 459>
SELECTED ACTION: Turn
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 460>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - -) (V - 1) (V - 5)
2 (V - 2) (V 1 2) (V - -) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 2 3) (- - -) (- - 1) (- - 5)
2 (- - 2) (- 1 2) (- - -) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
886
<STARTING>
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (U 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (R 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 48>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 4) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (L 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 1) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 1) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (D 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 102>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (U 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 107>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 108>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (D - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 113>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 121>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 122>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (L 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (L 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (V 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (L - 2) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 2) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (U - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (U - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (V - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (D 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (D 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (V 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (D - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (L - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (L 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (V 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (L - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (R 1 2) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (R - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (L - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (L - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 332>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 334>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 335>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 336>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 337>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: -1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
195
<STARTING>
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (U 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (U 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (R - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 73>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 4) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (L 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 1) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 1) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (D 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 102>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 103>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (U 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 108>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (D - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 115>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 122>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (L 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (L 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (V 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (L - 2) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 2) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (U - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (U - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (V - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (D 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (D 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (V 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (D - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (L - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (L 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (V 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (L - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (R 1 2) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (R - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (L - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (L - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 332>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 334>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 335>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 336>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
609
<STARTING>
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (U 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (U 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (U 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (R - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (U 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 73>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 4) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (L 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 1) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 1) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (D 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 103>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (U - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (D - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 115>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (L 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (L 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (V 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (L - 2) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 2) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (U - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (U - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (V - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (D 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (D 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (V 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (D - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (L - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (L 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (V 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (L - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (R 1 2) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (R - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (L - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (L - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 332>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 333>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: -2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
645
<STARTING>
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (U 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (U 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (U 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (U 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (R - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (U 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 74>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 4) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (L 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 1) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 1) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (D 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (U - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (D - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (L 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (L 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (V 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (L - 2) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 2) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (U - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (U - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (V - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (D 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (D 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (V 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (D - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (L - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (L 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (V 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (L - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (R 1 2) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (R - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (L - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (L - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
201
<STARTING>
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (U 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (U 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (U 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (U 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (U 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (- 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (R - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (- 3 4)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (- 3 4)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (- 3 4)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (- 3 4)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (- 3 4)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (V 2 3)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 8 3) (V 1 2)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (U 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V - -) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (R 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (V 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (D 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (U 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 4) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (L 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 1) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 1) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 100>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (D 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 106>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (U - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (D - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (L 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (L 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (V 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (L - 2) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 2) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (U - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (U - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (V - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (D 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (D 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (V 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (L 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (L - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (R 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (L - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (L - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 332>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 334>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - -) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: -1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - -) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
68
<STARTING>
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (U 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 7>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 12>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (- 2 2) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- 2 2) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- 2 2) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (- 2 2) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- 2 2) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- 2 2) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 5 3)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V 1 1) (- 5 3)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (R 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (D 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 27>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 32>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- 1 1) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V 1 1) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- 1 1) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- 1 1) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V 1 1) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- 1 1) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- 1 1) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 3 1)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 3 1)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 47>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (V - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 5 -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (L 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (V 5 -) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V - -) (V 5 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (L - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (V - -) (- 5 -) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- - -) (- 5 -) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 4 3) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 4 3) (- - -) (- 5 -) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 3 2) (- - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 5 -) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 5 -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (R - -) (- 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 5 -) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (R 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 4 -) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (- 4 -) (V - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (L 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (- - -) (V 3 -) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 3 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (L - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 3 2) (V - -) (- 3 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 3 -) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 2 1) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 2 1) (- - -) (- 3 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 1 -) (- - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 3 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 3 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (R - -) (- 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 3 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (R 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 2 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (- 2 -) (V - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (L 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (- - -) (V 1 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 1 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (L - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 1 -) (V - -) (- 1 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (U - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 1 -) (- - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (V 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (V 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (U 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (V 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (U - 4) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 80>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R - 3) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 3) (- 4 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (R 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 3 -) (- - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V 1 -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (R - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- 1 -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (R - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (D - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (L - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (- - -) (V - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 3 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (L - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (- 3 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 3) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (L 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- - 3) (V 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 2) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 2 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 1) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - 1) (- 2 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (R 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (V 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (D 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 100>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 2 1) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 2 1) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 2 3) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 2 3) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (U 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (U - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 106>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (R - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 107>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V 1 2) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (D - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (V - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- 1 2) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V 1 -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (D - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (V - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- 1 -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 113>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 120>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 121>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (U 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (U - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (R - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (D - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (V - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (D - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (L - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 4 5) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (L 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (- 4 5) (V 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 3) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (L 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 3) (V 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (L - 2) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 2) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V 1 6) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (U - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- 1 6) (- 2 3) (- 5 3) (- - -) (- - -)
3 (V - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 2 4) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (U - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 2 4) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (V - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (U 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (V 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 1) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 1) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V 1 -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (V - -) (- 1 -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (R - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (D - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (V - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (D 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (V 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 5 3) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V 1 1) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (D 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (V 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (- 1 1) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (D - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 3 4) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (L - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (- 3 4) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - 1) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (L 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - 1) (V 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (L - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (R 1 2) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (R - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (L - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (L - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 326>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 327>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 330>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 332>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 333>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 334>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 335>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 336>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 337>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 338>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - -) (V - -) (V - -) (V - -)
1 (V 1 3) (V 2 3) (V 1 3) (V - 1) (V - 5)
2 (V - 5) (V 2 3) (V 4 2) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - -) (- - -) (- - -) (- - -)
1 (- 1 3) (- 2 3) (- 1 3) (- - 1) (- - 5)
2 (- - 5) (- 2 3) (- 4 2) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
759
<STARTING>
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (U 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (U 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (R 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (D 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 8>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R 1 1) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V 1 1) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (R 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (D 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (L - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (L - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (L 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 52>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (D 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (D - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (D - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (D - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 56>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (R - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V 1 -) (V 6 1) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (R 4 3) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 4 3) (- 1 -) (- 6 1) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 6 1) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (R - -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (V - -) (- 6 1) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (R 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (V 5 -) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 63>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 4 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (L 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (V 4 -) (- - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 4 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (L - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (V - -) (- 4 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (L 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 3 2) (- - -) (- 4 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (R - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 4 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (R 2 1) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 2 1) (- - -) (- 4 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 4 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (R - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (V - -) (- 4 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (R 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (V 3 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 75>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 2 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (V 2 -) (- - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 2 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (L - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (V - -) (- 2 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (L 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 1 -) (- - -) (- 2 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 81>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 82>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (R - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 2 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (R - -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V - -) (- - -) (- 2 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 2 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (R - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (V - -) (- 2 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (R 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (V 1 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 87>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 88>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (U 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (V 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (U 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (V 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (U 2 3) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V 2 3) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (U - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (R - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (D - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (D 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (D 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (V 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (D 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (V 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 102>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (U 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (V 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (U - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (U - 1) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V - 1) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (U - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 107>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (R - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 108>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (D - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (D - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (D - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (D 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (V 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 113>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (U 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (V 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (U - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (R - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (R - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (V - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (D - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (V - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (D 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (V 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 122>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 124>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (U - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (L 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (V 1 1) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (L 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (V 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (V 1 1) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (L 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (V 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (L - 1) (- 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - 1) (- 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 4 5) (V 1 1) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 4 5) (V 1 1) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V 1 1) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (R 3 4) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V 3 4) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (R - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (V - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (R 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (V 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (- 2 -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (- 2 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (- 2 -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (- 2 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (- 2 -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (- 2 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (L 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (V 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (L - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (V - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (L 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (L - -) (- 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (R 1 2) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (R - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (R - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (L - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (L - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 6)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 6)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
60
<STARTING>
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (U 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (U - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (U 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (R 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (D 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R 1 1) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V 1 1) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (R 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (D 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 29>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (L - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (L - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (L 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (D 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (D - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (D - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (D - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 57>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (R - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V 1 -) (V 6 1) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (R 4 3) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 4 3) (- 1 -) (- 6 1) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 6 1) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (R - -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (V - -) (- 6 1) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (R 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (V 5 -) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 4 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (L 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (V 4 -) (- - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 4 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (L - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (V - -) (- 4 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (L 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 3 2) (- - -) (- 4 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (R - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 4 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (R 2 1) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 2 1) (- - -) (- 4 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 4 -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (R - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (V - -) (- 4 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (R 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (V 3 -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 76>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 2 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (V 2 -) (- - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 2 -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (L - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (V - -) (- 2 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (L 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 1 -) (- - -) (- 2 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 82>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 83>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (R - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 2 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (R - -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V - -) (- - -) (- 2 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 2 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (R - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (V - -) (- 2 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (R 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (V 1 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 88>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (U 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (V 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (U 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (U 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (U - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (R - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (D - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (D 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (D 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (D 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (V 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 102>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 103>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (U 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (V 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (U - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (U - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (U - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 108>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (R - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (D - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (D - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (D - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (D 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (V 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 115>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (U 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (V 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (U - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V 1 -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (R - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- 1 -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (4, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (R - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (V - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Turn
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (D - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (V - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (D 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (V 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (U - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (V - -)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (U - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (L 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (V 1 1) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (L 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (V 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (V 1 1) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (L 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (V 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (L - 1) (- 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - 1) (- 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 4 5) (V 1 1) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 4 5) (V 1 1) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 4 5) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V 1 1) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (R 3 4) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V 3 4) (- 1 1) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (R - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (V - -) (- 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (R 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (V 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (- 2 -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (- 2 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (- 2 -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (- 2 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (- 2 -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (- 2 -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (L 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (- - -) (V 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (L - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (V - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (L 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (L - -) (- 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (R 1 2) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (R - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (R - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (- - -) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (L - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (L - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: -1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
315
<STARTING>
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (U 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (U 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (U - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (U 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (R 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (D 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 10>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R 1 1) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V 1 1) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (R 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (D 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 30>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 31>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (L - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (L - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (L 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (D 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (D - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (D - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (D - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 58>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (R - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V 1 -) (V 6 1) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (R 4 3) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 4 3) (- 1 -) (- 6 1) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 6 1) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (R - -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (V - -) (- 6 1) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (R 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (V 5 -) (- - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 65>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 4 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (L 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (- - -) (V 4 -) (- - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 4 3) (V - -) (V 4 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (L - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 4 3) (V - -) (- 4 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (L 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 3 2) (- - -) (- 4 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (R - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 4 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (R 2 1) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 2 1) (- - -) (- 4 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 4 -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (R - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (V - -) (- 4 -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (R 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (V 3 -) (- - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 77>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 78>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 2 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (- - -) (V 2 -) (- - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 2 1) (V - -) (V 2 -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (L - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- 2 1) (V - -) (- 2 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (L 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V 1 -) (- - -) (- 2 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 83>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (R - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 85>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 2 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (R - -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (V - -) (- - -) (- 2 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 2 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (R - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (V - -) (- 2 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (R 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (V 1 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 92>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (U 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (U 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (U 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (U - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (R - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (D - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (D 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (D 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (D 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 103>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 105>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (U 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (U - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (U - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (U - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (R - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (D - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (D - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (D - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (D 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 115>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (U 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (U - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (R - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (D - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 3 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (D 3 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 3 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 3 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 3 -) (- 2 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 3 -) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 3 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 3 -) (- 2 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 3 -) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 3 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 3 -) (- 2 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 3 -) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 2 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (U 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 2 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (U - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 2 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (R - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 2 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (D - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 2 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 1 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (D 1 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 1 -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 1 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 1 -) (- 2 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 1 -) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 1 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 1 -) (- 2 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 1 -) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 1 -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 1 -) (- 2 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 1 -) (- 2 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 133>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V - -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (U - -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V - -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V - -) (V 2 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (R - -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V - -) (- 2 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- - -) (R 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- - -) (V 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (L 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (V 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (L 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (V 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (L - 1) (- 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - 1) (- 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 4 5) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 4 5) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (R 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (L 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (L - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (R 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (L - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (L - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 323>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: -2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
419
<STARTING>
Agent state: (4, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (U 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 3 4)
<STEP 1>
SELECTED ACTION: Advance
Agent state: (4, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (U 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Advance
Agent state: (4, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 3 4)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (U 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (4, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 3 4)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (U - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (4, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (U 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (R 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 3 4)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (D 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 3 4)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 3 4)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V 1 2)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (- 1 2)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 3 1) (- 7 6) (L 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 3 1) (- 7 6) (V 2 1) (- 7 2) (- 1 2)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 3 1) (L 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 3 1) (V 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 2 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (L 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V 2 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (U 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (V 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 21>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (- 6 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (R 2 6) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (V 2 6) (- 6 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (- 2 2) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (R 5 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (V 5 -) (- 2 2) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 24>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 4 2)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (R 1 1) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (V 1 1) (- 4 2)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 3 1)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (R 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 3 1)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 6)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (D 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (V 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 6)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (D - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- 1 -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 2 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V 1 2)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (- 1 2)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - 1)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (D - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - 1)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 7 2) (V - -)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- 1 -) (- 6 5) (- 2 1) (- 7 2) (V - -)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V 1 -) (V 6 5) (V 2 1) (V 6 1) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- 1 -) (- 6 5) (- 2 1) (L 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- 1 -) (- 6 5) (- 2 1) (V 6 1) (- - -)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V 1 -) (V 6 5) (V 1 -) (V 6 1) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- 1 -) (- 6 5) (L 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- 1 -) (- 6 5) (V 1 -) (- 6 1) (- - -)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V 1 -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- 1 -) (L 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- 1 -) (V 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 36>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 1 4) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 39>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 4 3) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 3 2) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 2 6) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 2 6) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 5 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (R 1 5) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V 1 5) (- 5 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V 1 1) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (R 4 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 4 -) (- 1 1) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 2 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (R - -) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- 2 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V 1 -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (R 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V 1 -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (D - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 47>
SELECTED ACTION: Turn
Agent state: (4, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (L - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (- - -) (V - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (3, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 4 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (L - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (- 4 -) (V - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 49>
SELECTED ACTION: Advance
Agent state: (2, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V 1 5) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (L 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (- 1 5) (V 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 50>
SELECTED ACTION: Advance
Agent state: (1, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (L - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 2 1) (V - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (0, 0, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (L 1 -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 53>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 54>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 55>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (D 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (0, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (D - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (D - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (D - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 60>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 5 4) (V 1 -) (V 6 1) (V - -)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 5 4) (- 1 -) (- 6 1) (- - -)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V 1 -) (V 6 1) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 4 3) (- 1 -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 4 3) (- 1 -) (- 6 1) (- - -)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 6 1) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (R - -) (- 6 1) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (V - -) (- 6 1) (- - -)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (- - -) (R 5 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (- - -) (V 5 -) (- - -)
<STEP 65>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 67>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 5 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (- - -) (- 5 -) (V - -)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 4 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (- - -) (L 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (- - -) (V 4 -) (- - -)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 4 3) (V - -) (V 4 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (L - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 4 3) (V - -) (- 4 -) (- - -)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 3 2) (- - -) (- 4 -) (- - -)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 73>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 3 2) (V - -) (V 4 -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 3 2) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 3 2) (- - -) (- 4 -) (- - -)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 4 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R 2 1) (- - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 2 1) (- - -) (- 4 -) (- - -)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 4 -) (V - -)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (R - -) (- 4 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (V - -) (- 4 -) (- - -)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (- - -) (R 3 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (- - -) (V 3 -) (- - -)
<STEP 77>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 78>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 3 -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (- - -) (- 3 -) (V - -)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 2 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (- - -) (L 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (- - -) (V 2 -) (- - -)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 2 1) (V - -) (V 2 -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (L - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- 2 1) (V - -) (- 2 -) (- - -)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (L 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V 1 -) (- - -) (- 2 -) (- - -)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (L - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 84>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (U - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V 1 -) (V - -) (V 2 -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (R - -) (- 1 -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (V - -) (- 1 -) (- - -) (- 2 -) (- - -)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 2 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (R - -) (- - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (V - -) (- - -) (- 2 -) (- - -)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (2, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 2 -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (R - -) (- 2 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (V - -) (- 2 -) (- - -)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (3, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (R 1 -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (V 1 -) (- - -)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (4, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (R - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 90>
SELECTED ACTION: Turn
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (D - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V 1 -) (V - -)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (L - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (- 1 -) (V - -)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 9 5) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (U 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (U 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (U 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (U - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 98>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (R - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 99>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 2 3) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (D - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 2 3) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 2 1) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (D 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 2 1) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 8 4) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (D 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 8 4) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (D 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 7 3) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 7 3) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V 1 -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (U 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- 1 -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V 1 2) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (U - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- 1 2) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (U - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (U - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (R - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - 1) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (D - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (V - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - 1) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (D - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (V - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 6 2) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (D - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 6 2) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (D 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 5 1) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 5 1) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (U 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (U - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 120>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (R - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 121>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 4 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (D - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 4 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (D 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 3 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 3 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (U 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 127>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (U - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (3, 2, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (R - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 2 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (D - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (V - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 2 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 130>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (D 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (D - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (L - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (3, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V 1 -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (U - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- 1 -) (- 1 -)
4 (- - -) (- - -) (- - -) (V - -) (- - -)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (U - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V - -) (V 1 -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (R - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V - -) (- 1 -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 136>
SELECTED ACTION: Advance
Agent state: (4, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- - -) (R - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- - -) (D - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (4, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- - -) (L - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (- - -) (V - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 139>
SELECTED ACTION: Advance
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (- 2 2) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (- 2 2) (V - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (- 5 6) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (L 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (- 5 6) (V 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 2) (V 4 5) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (L 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - 2) (V 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 142>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - 1) (V 4 5) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (L - 1) (- 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - 1) (- 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 4 5) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 4 5) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 4 5) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 145>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V 1 1) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (R 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V 3 4) (- 1 1) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 3 4) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 3 4) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (L 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (L - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 2 3) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- 2 3) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (1, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (R 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V 1 2) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 154>
SELECTED ACTION: Advance
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (R - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (D - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V 1 2) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (L - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- 1 2) (V - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 157>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (L - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (V - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (L - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 159>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 164>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 171>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 207>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 216>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 219>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 222>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 228>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 231>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 234>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 237>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 240>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 243>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 249>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 255>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 258>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 264>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 279>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 282>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 285>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 291>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 294>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 303>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 306>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 309>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (R - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (D - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
<STEP 318>
SELECTED ACTION: Advance
Agent state: (0, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (D - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (L - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (- - -) (- - 1) (- - -) (- - -) (- - -)
4 (V - -) (- - -) (- - -) (- - -) (- - -)
<STEP 321>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (V - -) (V - 5)
2 (V - 5) (- 3 4) (- 5 3) (V - -) (V - -)
3 (V - -) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - -)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (U - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- 3 -) (- - -) (- - -)
1 (- 1 3) (- 3 4) (- 2 4) (- - -) (- - 5)
2 (- - 5) (- 3 4) (- 5 3) (- - -) (- - -)
3 (V - -) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - -)
639
<STARTING>
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 3 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 13>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 2 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 14>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 1 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 15>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R - -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (R 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (R - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 18>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 19>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 20>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 3 1)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 3 1)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 3 1)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 22>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 2 -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 2 -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 2 -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 23>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 1 -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 1 -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 1 -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 27>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 28>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 30>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 32>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 315
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 34>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 319
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 35>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V - 1)
Agent performance: 324
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V - 1)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V - 1)
Agent performance: 328
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V - 1)
<STEP 37>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 6 1) (V - 1)
Agent performance: 333
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 6 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 6 1) (V - 1)
<STEP 38>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 5 -) (V - 1)
Agent performance: 338
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 5 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 5 -) (V - 1)
<STEP 39>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 4 -) (V - 1)
Agent performance: 348
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 4 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 4 -) (V - 1)
<STEP 40>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 3 -) (V - 1)
Agent performance: 358
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 3 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 3 -) (V - 1)
<STEP 41>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 2 -) (V - 1)
Agent performance: 368
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 2 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 2 -) (V - 1)
<STEP 42>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 1 -) (V - 1)
Agent performance: 378
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 1 -) (V - 1)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V - -) (V - 1)
Agent performance: 388
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V - -) (V - 1)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 2 1) (V - -) (V - 1)
Agent performance: 392
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L 2 1) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 2 1) (V - -) (V - 1)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 1 -) (V - -) (V - 1)
Agent performance: 397
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L 1 -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 1 -) (V - -) (V - 1)
<STEP 46>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V - -) (V - -) (V - 1)
Agent performance: 407
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V - -) (V - -) (V - 1)
<STEP 47>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 6 5) (V - -) (V - -) (V - 1)
Agent performance: 411
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 6 5) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 6 5) (V - -) (V - -) (V - 1)
<STEP 48>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 5 4) (V - -) (V - -) (V - 1)
Agent performance: 416
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 5 4) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 5 4) (V - -) (V - -) (V - 1)
<STEP 49>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 4 3) (V - -) (V - -) (V - 1)
Agent performance: 421
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 4 3) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 4 3) (V - -) (V - -) (V - 1)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 3 2) (V - -) (V - -) (V - 1)
Agent performance: 426
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 3 2) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 3 2) (V - -) (V - -) (V - 1)
<STEP 51>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 2 1) (V - -) (V - -) (V - 1)
Agent performance: 431
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 2 1) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 2 1) (V - -) (V - -) (V - 1)
<STEP 52>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 1 -) (V - -) (V - -) (V - 1)
Agent performance: 436
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 1 -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 1 -) (V - -) (V - -) (V - 1)
<STEP 53>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 446
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V - -) (V - -) (V - -) (V - 1)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 450
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (L 2 -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - 1)
<STEP 55>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 459
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (U 1 -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - 1)
<STEP 56>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 469
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 57>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 473
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 58>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 478
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 482
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 60>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 487
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 61>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 492
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 62>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 496
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 63>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 501
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 64>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 506
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (U 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 65>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (U - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 508
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 67>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 507
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 499
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 496
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 495
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (D - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 499
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (D 1 3) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 72>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 504
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (D - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 508
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 74>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 513
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D 3 1) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 75>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 518
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D 2 -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 76>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 1 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 528
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D 1 -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 1 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 77>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 538
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 542
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (D 1 1) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 79>
SELECTED ACTION: Stay
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 547
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (D - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 80>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 546
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (L - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 81>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 550
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 4 5) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 82>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 555
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 3 4) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 83>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 2 3) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 560
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 2 3) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 2 3) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 84>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 1 2) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 565
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 1 2) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 1 2) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 85>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 570
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 2) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 562
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (L - 2) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 2) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 87>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 556
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (U - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 548
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (U - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 540
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 537
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 536
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 528
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 525
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (R - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 522
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (R - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 521
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (D - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V 2 3) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 525
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (D 2 3) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V 2 3) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 97>
SELECTED ACTION: Stay
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V 1 2) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 530
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (D 1 2) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V 1 2) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 98>
SELECTED ACTION: Stay
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 535
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (D - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V 2 1) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 539
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (D 2 1) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V 2 1) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 100>
SELECTED ACTION: Stay
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V 1 -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 544
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (D 1 -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V 1 -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 101>
SELECTED ACTION: Stay
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 554
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (D - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 558
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 8 4) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 103>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 563
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 104>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 568
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 6 2) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 105>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 573
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 106>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 578
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 4 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 107>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 588
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 108>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 598
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 109>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 608
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 110>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 618
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 615
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (D - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 614
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (L - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 611
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 608
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (L - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 115>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 607
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (U - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 599
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (U - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 603
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (U 2 3) (- - -) (- - -) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 118>
SELECTED ACTION: Stay
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V 1 2) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 608
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (U 1 2) (- - -) (- - -) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V 1 2) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 119>
SELECTED ACTION: Stay
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 613
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (U - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 617
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (U 2 3) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 121>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (V 1 2) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 622
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (U 1 2) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (V 1 2) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 122>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (V - 1) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 627
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (U - 1) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (V - 1) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
724
<STARTING>
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 1 3) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 13>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 5 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 15>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 4 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 16>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 3 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 2 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 1 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 19>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R - -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (R 1 1) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (R - -) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 6 4)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (R 6 4)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 6 4)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 23>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 5 3)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 5 3)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 5 3)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 4 2)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 4 2)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 4 2)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 25>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 3 1)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 3 1)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 3 1)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 26>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 2 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 2 -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 2 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 27>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 1 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 1 -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 1 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 28>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 29>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 32>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 35>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 320
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 36>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 330
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 334
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 38>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 338
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 39>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V - 1)
Agent performance: 343
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V - 1)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V - 1)
Agent performance: 347
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V - 1)
<STEP 41>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 6 1) (V - 1)
Agent performance: 352
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 6 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 6 1) (V - 1)
<STEP 42>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 5 -) (V - 1)
Agent performance: 357
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 5 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 5 -) (V - 1)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 4 -) (V - 1)
Agent performance: 367
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 4 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 4 -) (V - 1)
<STEP 44>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 3 -) (V - 1)
Agent performance: 377
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 3 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 3 -) (V - 1)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 2 -) (V - 1)
Agent performance: 387
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 2 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 2 -) (V - 1)
<STEP 46>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 1 -) (V - 1)
Agent performance: 397
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 1 -) (V - 1)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V - -) (V - 1)
Agent performance: 407
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V - -) (V - 1)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 2 1) (V - -) (V - 1)
Agent performance: 411
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L 2 1) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 2 1) (V - -) (V - 1)
<STEP 49>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 1 -) (V - -) (V - 1)
Agent performance: 416
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L 1 -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 1 -) (V - -) (V - 1)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V - -) (V - -) (V - 1)
Agent performance: 426
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V - -) (V - -) (V - 1)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 6 5) (V - -) (V - -) (V - 1)
Agent performance: 430
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 6 5) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 6 5) (V - -) (V - -) (V - 1)
<STEP 52>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 5 4) (V - -) (V - -) (V - 1)
Agent performance: 435
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 5 4) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 5 4) (V - -) (V - -) (V - 1)
<STEP 53>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 4 3) (V - -) (V - -) (V - 1)
Agent performance: 440
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 4 3) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 4 3) (V - -) (V - -) (V - 1)
<STEP 54>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 3 2) (V - -) (V - -) (V - 1)
Agent performance: 445
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 3 2) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 3 2) (V - -) (V - -) (V - 1)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 2 1) (V - -) (V - -) (V - 1)
Agent performance: 450
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 2 1) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 2 1) (V - -) (V - -) (V - 1)
<STEP 56>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 1 -) (V - -) (V - -) (V - 1)
Agent performance: 455
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 1 -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 1 -) (V - -) (V - -) (V - 1)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 465
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V - -) (V - -) (V - -) (V - 1)
<STEP 58>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 469
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (L 2 -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - 1)
<STEP 59>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 478
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (U 1 -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - 1)
<STEP 60>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 488
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 492
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 497
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 501
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 64>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 506
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 65>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 503
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (U - 1) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 500
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 499
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 491
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 488
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 71>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 487
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (D - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 491
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (D 1 3) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 73>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 496
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (D - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 74>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 500
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 75>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 505
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D 3 1) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 76>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 510
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D 2 -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 77>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 1 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 520
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D 1 -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 1 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 78>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 530
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 534
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (D 1 1) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 80>
SELECTED ACTION: Stay
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 539
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (D - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 81>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 538
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (L - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 542
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 4 5) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 83>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 547
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 3 4) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 84>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 2 3) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 552
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 2 3) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 2 3) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 85>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 1 2) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 557
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 1 2) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 1 2) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 86>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 562
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 2) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 554
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (L - 2) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 2) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 88>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 548
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (U - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 540
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (U - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 532
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 531
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (R - -) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V 2 3) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 535
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (R 2 3) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V 2 3) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 93>
SELECTED ACTION: Stay
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V 1 2) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 540
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (R 1 2) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V 1 2) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 94>
SELECTED ACTION: Stay
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 545
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (R - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 95>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 537
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (R - 1) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V 2 3) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 541
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (R 2 3) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V 2 3) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 97>
SELECTED ACTION: Stay
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V 1 2) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 546
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (R 1 2) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V 1 2) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 98>
SELECTED ACTION: Stay
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 551
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (R - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 99>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 6)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 543
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (R - 6)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 6)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 100>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 537
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (D - 5)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 101>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 534
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (D - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 102>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 533
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (L - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 103>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (V 2 1) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 537
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- - -) (L 2 1) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (V 2 1) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 104>
SELECTED ACTION: Stay
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (V 1 -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 542
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- - -) (L 1 -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (V 1 -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 105>
SELECTED ACTION: Stay
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 552
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (- - -) (L - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (- 3 4) (L - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 553
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (L 2 3) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 108>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 558
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (L 1 2) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V 1 2) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 109>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 563
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 4) (L - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 555
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (L - 3) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 111>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (U - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 546
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 543
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 114>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 542
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 115>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 541
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 116>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 538
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 117>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 537
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 536
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 119>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 533
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 120>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 532
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 121>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 531
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 122>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 528
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 123>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 527
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 526
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 125>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 523
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 126>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 522
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 127>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 521
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 128>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 518
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 129>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 517
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 516
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 131>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 513
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 132>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 512
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 134>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 508
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 135>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 507
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 506
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 137>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 503
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 138>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 502
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 501
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 140>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 498
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 141>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 497
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 142>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 496
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 143>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 493
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 144>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 492
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 491
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 146>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 488
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 147>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 487
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 486
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 149>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 483
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 150>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 482
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 481
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 152>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 478
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 153>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 477
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 476
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 155>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 473
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 156>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 472
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 471
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 158>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 468
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 159>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 467
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 466
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 161>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 463
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 162>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 462
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 461
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 164>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 458
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 165>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 457
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 456
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 167>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 453
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 168>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 452
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 451
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 170>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 448
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 171>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 447
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 446
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 173>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 443
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 174>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 442
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 441
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 176>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 438
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 177>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 437
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 436
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 179>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 433
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 180>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 432
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 431
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 182>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 428
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 183>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 427
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 426
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 185>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 423
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 186>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 422
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 421
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 188>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 418
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 189>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 417
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 416
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 191>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 413
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 192>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 412
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 411
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 194>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 408
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 195>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 407
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 406
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 197>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 403
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 198>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 402
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 401
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 200>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 398
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 201>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 397
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 396
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 203>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 393
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 204>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 392
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 391
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 206>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 388
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 207>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 387
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 386
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 209>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 383
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 210>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 382
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 381
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 212>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 378
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 213>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 377
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 376
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 215>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 373
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 216>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 372
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 371
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 218>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 368
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 219>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 367
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 366
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 221>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 363
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 222>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 362
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 361
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 224>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 358
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 225>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 357
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 356
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 227>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 353
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 228>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 352
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 351
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 230>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 348
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 231>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 347
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 346
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 233>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 343
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 234>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 342
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 341
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 236>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 338
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 237>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 337
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 336
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 239>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 333
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 240>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 332
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 331
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 242>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 328
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 243>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 327
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 326
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 245>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 323
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 246>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 322
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 321
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 248>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 318
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 249>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 317
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 316
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 251>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 252>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 312
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 311
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 254>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 255>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 307
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 306
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 257>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 258>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 302
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 260>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 261>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 297
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 263>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 264>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 266>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 267>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 287
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 269>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 270>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 272>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 273>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 275>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 276>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 278>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 279>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 281>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 282>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 261
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 284>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 285>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 256
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 287>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 288>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 251
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 290>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 291>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 246
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 293>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 294>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 242
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 241
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 296>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 297>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 237
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 236
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 299>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 300>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 232
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 231
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 302>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 303>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 227
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 226
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 305>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 306>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 222
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 221
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 308>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 309>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 217
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 216
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 311>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 312>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 212
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 211
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 314>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 315>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 207
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 206
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 317>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 318>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 202
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 201
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 320>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 321>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 197
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 323>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 324>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 192
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 326>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 327>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 329>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 330>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 332>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 333>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 334>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 335>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 336>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 172
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 337>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 338>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 339>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 340>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 341>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 342>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 343>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 344>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 345>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 346>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 347>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 348>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 349>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 350>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 351>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 352>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 146
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 353>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 354>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 355>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 141
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 356>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 357>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 358>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 136
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 359>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 360>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 132
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 361>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 131
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 362>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 363>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 127
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 364>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 126
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 365>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 366>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 122
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 367>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 121
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 368>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 369>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 117
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 370>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 116
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 371>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 372>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 112
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 373>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 111
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 374>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 375>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 107
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 376>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 106
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 377>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 378>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 102
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 379>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 101
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 380>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 381>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 97
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 382>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 96
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 383>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 384>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 92
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 385>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 91
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 386>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 387>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 87
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 388>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 86
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 389>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 390>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 82
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 391>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 81
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 392>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 393>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 77
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 394>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 76
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 395>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 396>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 72
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 397>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 71
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 398>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 399>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 67
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 400>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 66
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 401>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 402>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 62
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 403>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 61
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 404>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 405>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 57
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 406>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 56
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 407>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 408>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 52
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 409>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 51
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 410>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 411>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 47
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 412>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 46
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 413>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 414>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 42
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 415>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 41
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 416>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 417>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 37
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 418>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 36
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 419>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 420>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 32
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 421>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 31
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 422>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 423>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 27
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 424>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 26
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 425>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 426>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 22
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 427>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 21
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 428>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 429>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 17
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 430>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 16
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 431>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 432>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 12
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 433>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 11
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 434>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 435>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 7
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 436>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 6
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 437>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 438>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 439>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 1
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 440>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: -2
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
896
<STARTING>
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 1 3) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 142
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 13>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 14>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 15>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 16>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 181
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 17>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 5 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 4 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 19>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 3 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 20>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 2 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 1 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 22>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R - -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (R 1 1) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (R - -) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 6 4)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (R 6 4)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 6 4)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 26>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 5 3)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 5 3)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 5 3)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 27>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 4 2)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 4 2)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 4 2)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 28>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 3 1)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 3 1)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 3 1)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 2 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 272
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 2 -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 2 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 30>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 1 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 1 -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 1 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 292
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 32>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 296
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 35>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 315
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 36>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 319
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 37>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 324
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 38>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 334
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 39>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 344
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 40>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 348
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 41>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 352
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 42>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V - 1)
Agent performance: 357
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V - 1)
<STEP 43>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V - 1)
Agent performance: 361
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V - 1)
<STEP 44>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 6 1) (V - 1)
Agent performance: 366
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 6 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 6 1) (V - 1)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 5 -) (V - 1)
Agent performance: 371
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 5 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 5 -) (V - 1)
<STEP 46>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 4 -) (V - 1)
Agent performance: 381
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 4 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 4 -) (V - 1)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 3 -) (V - 1)
Agent performance: 391
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 3 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 3 -) (V - 1)
<STEP 48>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 2 -) (V - 1)
Agent performance: 401
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 2 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 2 -) (V - 1)
<STEP 49>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 1 -) (V - 1)
Agent performance: 411
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 1 -) (V - 1)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V - -) (V - 1)
Agent performance: 421
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V - -) (V - 1)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 2 1) (V - -) (V - 1)
Agent performance: 425
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L 2 1) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 2 1) (V - -) (V - 1)
<STEP 52>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 1 -) (V - -) (V - 1)
Agent performance: 430
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L 1 -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 1 -) (V - -) (V - 1)
<STEP 53>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V - -) (V - -) (V - 1)
Agent performance: 440
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V - -) (V - -) (V - 1)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 6 5) (V - -) (V - -) (V - 1)
Agent performance: 444
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 6 5) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 6 5) (V - -) (V - -) (V - 1)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 5 4) (V - -) (V - -) (V - 1)
Agent performance: 449
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 5 4) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 5 4) (V - -) (V - -) (V - 1)
<STEP 56>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 4 3) (V - -) (V - -) (V - 1)
Agent performance: 454
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 4 3) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 4 3) (V - -) (V - -) (V - 1)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 3 2) (V - -) (V - -) (V - 1)
Agent performance: 459
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 3 2) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 3 2) (V - -) (V - -) (V - 1)
<STEP 58>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 2 1) (V - -) (V - -) (V - 1)
Agent performance: 464
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 2 1) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 2 1) (V - -) (V - -) (V - 1)
<STEP 59>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 1 -) (V - -) (V - -) (V - 1)
Agent performance: 469
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 1 -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 1 -) (V - -) (V - -) (V - 1)
<STEP 60>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 479
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V - -) (V - -) (V - -) (V - 1)
<STEP 61>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 483
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (L 2 -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - 1)
<STEP 62>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 492
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (U 1 -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - 1)
<STEP 63>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 502
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 64>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 506
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 65>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 503
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U - 4) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 495
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (U - 1) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 68>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 492
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 491
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 483
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 480
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 72>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 479
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (D - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 73>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 483
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (D 1 3) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 74>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 488
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (D - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 492
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 76>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 497
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (D 3 1) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 77>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 502
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (D 2 -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 78>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V 1 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 512
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (D 1 -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V 1 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 79>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 522
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (D - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 526
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (D 1 1) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 81>
SELECTED ACTION: Stay
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 531
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (D - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 82>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 530
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (L - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 83>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 534
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 4 5) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 84>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 539
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 3 4) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 85>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 2 3) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 544
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 2 3) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 2 3) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 86>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 1 2) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 1 2) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 1 2) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 87>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 554
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 2) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 546
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (L - 2) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 2) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 540
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (U - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 532
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (U - 3) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 524
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 92>
SELECTED ACTION: Turn
Agent state: (0, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 523
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (R - -) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V 2 3) (V - 2) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 527
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (R 2 3) (- - 2) (- 3 4) (- - 7)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V 2 3) (V - 2) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 94>
SELECTED ACTION: Stay
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V 1 2) (V - 2) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 532
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (R 1 2) (- - 2) (- 3 4) (- - 7)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V 1 2) (V - 2) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 95>
SELECTED ACTION: Stay
Agent state: (1, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 537
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (R - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 96>
SELECTED ACTION: Advance
Agent state: (2, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 529
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (R - 1) (- 3 4) (- - 7)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (- 3 4) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V 2 3) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 533
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (R 2 3) (- - 7)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V 2 3) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 98>
SELECTED ACTION: Stay
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V 1 2) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 538
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (R 1 2) (- - 7)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V 1 2) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 99>
SELECTED ACTION: Stay
Agent state: (3, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 543
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (R - 1) (- - 7)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 7)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (4, 1, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 6)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 535
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (R - 6)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 6)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 101>
SELECTED ACTION: Turn
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 529
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (D - 5)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 102>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 526
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (D - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 103>
SELECTED ACTION: Turn
Agent state: (4, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 525
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 3) (- 3 4) (- - -) (- 3 2) (L - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 104>
SELECTED ACTION: Advance
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (V 2 1) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 529
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 3) (- 3 4) (- - -) (L 2 1) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (V 2 1) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 105>
SELECTED ACTION: Stay
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (V 1 -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 534
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 3) (- 3 4) (- - -) (L 1 -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (V 1 -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 106>
SELECTED ACTION: Stay
Agent state: (3, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 544
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 3) (- 3 4) (- - -) (L - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 107>
SELECTED ACTION: Advance
Agent state: (2, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 541
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 3) (- 3 4) (L - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 108>
SELECTED ACTION: Advance
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (V 2 3) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 545
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 3) (L 2 3) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (V 2 3) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 109>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (V 1 2) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 550
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 3) (L 1 2) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (V 1 2) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 110>
SELECTED ACTION: Stay
Agent state: (1, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 555
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 3) (L - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 3) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (0, 2, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 547
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (L - 2) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 2) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 112>
SELECTED ACTION: Turn
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 541
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (U - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 538
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 535
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 115>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 534
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 116>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 533
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 117>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 530
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 118>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 529
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 119>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 528
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 120>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 525
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 121>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 524
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 122>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 523
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 123>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 520
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 124>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 519
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 125>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 518
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 126>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 515
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 127>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 514
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 128>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 513
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 129>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 510
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 130>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 509
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 131>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 508
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 132>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 505
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 133>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 504
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 134>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 503
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 135>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 500
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 136>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 499
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 137>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 498
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 138>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 495
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 139>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 494
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 140>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 493
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 141>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 490
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 142>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 489
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 143>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 488
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 144>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 485
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 145>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 484
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 146>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 483
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 147>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 480
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 148>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 479
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 149>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 478
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 150>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 475
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 151>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 474
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 152>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 473
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 153>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 470
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 154>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 469
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 155>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 468
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 156>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 465
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 157>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 464
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 158>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 463
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 159>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 460
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 160>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 459
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 161>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 458
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 162>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 455
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 163>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 454
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 164>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 453
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 165>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 450
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 166>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 449
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 167>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 448
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 168>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 445
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 169>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 444
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 170>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 443
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 171>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 440
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 172>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 439
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 173>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 438
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 174>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 435
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 175>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 434
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 176>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 433
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 177>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 430
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 178>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 429
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 179>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 428
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 180>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 425
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 181>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 424
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 182>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 423
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 183>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 420
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 184>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 419
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 185>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 418
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 186>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 415
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 187>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 414
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 188>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 413
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 189>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 410
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 190>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 409
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 191>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 408
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 192>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 405
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 193>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 404
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 194>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 403
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 195>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 400
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 196>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 399
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 197>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 398
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 198>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 395
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 199>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 394
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 200>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 393
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 201>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 390
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 202>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 389
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 203>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 388
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 204>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 385
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 205>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 384
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 206>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 383
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 207>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 380
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 208>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 379
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 209>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 378
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 210>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 375
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 211>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 374
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 212>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 373
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 213>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 370
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 214>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 369
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 215>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 368
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 216>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 365
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 217>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 364
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 218>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 363
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 219>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 360
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 220>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 359
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 221>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 358
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 222>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 355
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 223>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 354
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 224>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 353
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 225>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 350
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 226>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 349
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 227>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 348
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 228>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 345
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 229>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 344
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 230>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 343
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 231>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 340
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 232>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 339
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 233>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 338
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 234>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 335
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 235>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 334
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 236>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 333
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 237>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 330
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 238>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 329
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 239>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 328
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 240>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 325
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 241>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 324
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 242>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 323
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 243>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 320
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 244>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 319
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 245>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 318
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 246>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 315
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 247>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 248>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 249>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 310
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 250>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 251>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 252>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 253>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 254>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 303
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 255>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 256>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 257>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 298
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 258>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 259>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 260>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 293
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 261>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 262>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 289
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 263>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 288
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 264>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 265>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 284
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 266>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 283
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 267>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 280
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 268>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 279
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 269>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 278
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 270>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 275
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 271>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 274
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 272>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 273>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 270
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 274>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 269
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 275>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 268
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 276>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 265
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 277>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 264
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 278>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 279>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 260
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 280>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 259
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 281>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 282>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 255
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 283>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 254
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 284>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 285>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 250
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 286>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 287>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 288>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 245
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 289>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 244
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 290>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 291>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 240
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 292>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 293>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 294>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 235
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 295>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 234
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 296>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 297>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 230
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 298>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 299>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 228
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 300>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 301>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 224
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 302>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 303>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 220
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 304>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 305>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 218
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 306>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 307>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 308>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 213
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 309>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 210
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 310>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 311>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 208
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 312>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 313>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 314>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 203
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 315>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 316>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 317>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 198
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 318>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 319>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 194
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 320>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 193
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 321>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 322>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 189
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 323>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 188
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 324>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 325>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 184
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 326>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 183
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 327>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 328>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 179
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 329>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 178
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 330>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 331>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 174
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 332>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 333>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 170
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 334>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 169
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 335>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 168
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 336>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 165
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 337>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 164
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 338>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 339>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 160
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 340>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 159
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 341>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 158
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 342>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 155
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 343>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 154
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 344>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 345>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 150
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 346>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 149
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 347>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 348>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 145
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 349>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 144
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 350>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 351>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 140
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 352>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 139
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 353>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 354>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 135
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 355>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 356>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 357>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 130
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 358>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 359>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 360>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 361>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 362>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 363>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 120
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 364>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 365>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 118
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 366>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 367>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 368>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 113
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 369>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 370>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 371>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 108
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 372>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 373>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 374>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 103
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 375>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 376>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 99
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 377>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 98
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 378>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 95
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 379>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 94
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 380>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 93
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 381>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 90
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 382>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 89
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 383>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 88
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 384>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 85
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 385>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 84
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 386>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 83
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 387>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 80
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 388>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 79
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 389>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 78
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 390>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 75
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 391>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 74
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 392>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 73
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 393>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 70
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 394>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 69
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 395>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 68
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 396>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 65
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 397>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 64
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 398>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 63
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 399>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 60
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 400>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 59
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 401>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 58
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 402>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 55
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 403>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 54
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 404>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 53
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 405>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 50
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 406>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 49
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 407>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 48
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 408>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 45
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 409>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 44
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 410>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 43
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 411>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 40
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 412>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 39
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 413>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 38
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 414>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 35
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 415>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 34
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 416>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 33
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 417>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 30
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 418>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 29
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 419>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 28
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 420>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 25
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 421>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 24
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 422>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 23
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 423>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 20
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 424>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 19
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 425>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 18
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 426>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 15
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 427>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 14
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 428>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 13
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 429>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 10
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 430>
SELECTED ACTION: Turn
Agent state: (0, 1, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 9
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (L - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 431>
SELECTED ACTION: Turn
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 8
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 432>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 5
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 433>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 4
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 434>
SELECTED ACTION: Turn
Agent state: (0, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 3
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (D - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 435>
SELECTED ACTION: Advance
Agent state: (0, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 0
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (D - -) (- - 1) (- - 1) (- - 1) (- - 5)
2 (- - 1) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - -) (V - 1) (V - 1) (V - 1) (V - 5)
2 (V - 1) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
203
<STARTING>
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (U 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 124
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 1 3) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 151
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 156
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 13>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 161
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 14>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 166
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 15>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 176
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 16>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 199
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 5 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 20>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 4 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 3 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 22>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 2 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 23>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 1 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 249
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R - -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 25>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (R 1 1) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 26>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 258
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (R - -) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 6 4)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (R 6 4)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 6 4)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 5 3)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 5 3)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 5 3)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 4 2)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 4 2)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 4 2)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 30>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 3 1)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 276
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 3 1)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 3 1)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 2 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 2 -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 2 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 32>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 1 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 1 -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 1 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 33>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 301
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 34>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 35>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 309
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 36>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 37>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 324
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 328
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 39>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 333
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 40>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 343
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 41>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 353
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 42>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 357
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 43>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 361
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 44>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V - 1)
Agent performance: 366
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V - 1)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V - 1)
Agent performance: 370
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V - 1)
<STEP 46>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 6 1) (V - 1)
Agent performance: 375
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 6 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 6 1) (V - 1)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 5 -) (V - 1)
Agent performance: 380
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 5 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 5 -) (V - 1)
<STEP 48>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 4 -) (V - 1)
Agent performance: 390
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 4 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 4 -) (V - 1)
<STEP 49>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 3 -) (V - 1)
Agent performance: 400
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 3 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 3 -) (V - 1)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 2 -) (V - 1)
Agent performance: 410
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 2 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 2 -) (V - 1)
<STEP 51>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 1 -) (V - 1)
Agent performance: 420
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 1 -) (V - 1)
<STEP 52>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V - -) (V - 1)
Agent performance: 430
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V - -) (V - 1)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 2 1) (V - -) (V - 1)
Agent performance: 434
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L 2 1) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 2 1) (V - -) (V - 1)
<STEP 54>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 1 -) (V - -) (V - 1)
Agent performance: 439
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L 1 -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 1 -) (V - -) (V - 1)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V - -) (V - -) (V - 1)
Agent performance: 449
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V - -) (V - -) (V - 1)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 6 5) (V - -) (V - -) (V - 1)
Agent performance: 453
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 6 5) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 6 5) (V - -) (V - -) (V - 1)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 5 4) (V - -) (V - -) (V - 1)
Agent performance: 458
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 5 4) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 5 4) (V - -) (V - -) (V - 1)
<STEP 58>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 4 3) (V - -) (V - -) (V - 1)
Agent performance: 463
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 4 3) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 4 3) (V - -) (V - -) (V - 1)
<STEP 59>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 3 2) (V - -) (V - -) (V - 1)
Agent performance: 468
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 3 2) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 3 2) (V - -) (V - -) (V - 1)
<STEP 60>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 2 1) (V - -) (V - -) (V - 1)
Agent performance: 473
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 2 1) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 2 1) (V - -) (V - -) (V - 1)
<STEP 61>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 1 -) (V - -) (V - -) (V - 1)
Agent performance: 478
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 1 -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 1 -) (V - -) (V - -) (V - 1)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 488
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V - -) (V - -) (V - -) (V - 1)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 492
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (L 2 -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - 1)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 501
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (U 1 -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - 1)
<STEP 65>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (0, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 510
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (R - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 4, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 507
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (R - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (1, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 506
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (D - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 69>
SELECTED ACTION: Turn
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 505
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (L - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 70>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 504
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (U - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 508
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 72>
SELECTED ACTION: Stay
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 513
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 3 4) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 73>
SELECTED ACTION: Stay
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 2 3) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 518
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 2 3) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 2 3) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 74>
SELECTED ACTION: Stay
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 1 2) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 523
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 1 2) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 1 2) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 75>
SELECTED ACTION: Stay
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 528
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 532
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 77>
SELECTED ACTION: Stay
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 537
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (U 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 78>
SELECTED ACTION: Stay
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 542
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (U - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 546
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (U 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 80>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 551
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (U 1 2) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 81>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 556
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (U - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 548
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 83>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 542
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 539
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 538
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (D - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V 1 3) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 542
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (D 1 3) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V 1 3) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 87>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 547
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (D - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 551
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 89>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 556
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (D 3 1) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 90>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 561
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (D 2 -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 91>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 1 -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 571
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (D 1 -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 1 -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 92>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 581
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (D - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 93>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V 1 1) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 585
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (D 1 1) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V 1 1) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 94>
SELECTED ACTION: Stay
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 590
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (D - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 95>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 589
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (L - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 96>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 588
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (U - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 97>
SELECTED ACTION: Turn
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 587
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (R - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 98>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 591
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 8 4) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 99>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 596
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 100>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 601
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 6 2) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 101>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 606
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 102>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 611
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 4 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 103>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 621
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 104>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 631
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 105>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 641
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 106>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 651
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 107>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 650
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 108>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 649
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 109>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 648
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (U - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 110>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (V 2 1) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 652
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (U 2 1) (- - -)
3 (- - 3) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (V 2 1) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 111>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (V 1 -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (U 1 -) (- - -)
3 (- - 3) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (V 1 -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 112>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 667
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (U - -) (- - -)
3 (- - 3) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 113>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V 2 3) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 671
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (U 2 3) (- - 7)
2 (- - 5) (- - 1) (- - -) (- - -) (- - -)
3 (- - 3) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V 2 3) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 114>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V 1 2) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 676
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (U 1 2) (- - 7)
2 (- - 5) (- - 1) (- - -) (- - -) (- - -)
3 (- - 3) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V 1 2) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 115>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 681
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (U - 1) (- - 7)
2 (- - 5) (- - 1) (- - -) (- - -) (- - -)
3 (- - 3) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
92
<STARTING>
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (U 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 2 -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (U 2 -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 2 -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 1 -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (U 1 -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V 1 -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 125
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (U - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 129
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 134
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 138
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 148
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (U - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 152
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 162
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U 1 3) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (U - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 171
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 14>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 175
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 15>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 180
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 16>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 185
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 20>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 223
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 5 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 23>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 4 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 3 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 25>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 253
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 2 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 26>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 263
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R 1 -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 27>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 273
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (R - -) (- 2 2) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 28>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (R 1 1) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 282
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (R - -) (- 7 5)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (- 7 5)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 6 4)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 286
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (R 6 4)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 6 4)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 5 3)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 5 3)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 5 3)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 32>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 4 2)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 4 2)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 4 2)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 33>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 3 1)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 300
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 3 1)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 3 1)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 2 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 305
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 2 -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 2 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 35>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 1 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 315
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D 1 -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V 1 -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 36>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 325
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (D - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 37>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 329
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 333
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 39>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 338
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 40>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 348
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 352
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 42>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 357
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 367
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 44>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 377
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (D - -)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 45>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 381
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 46>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 385
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (V - 1)
Agent performance: 390
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (- 3 2) (- 8 3) (L - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (- 8 3) (V - 1)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 7 2) (V - 1)
Agent performance: 394
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (- 3 2) (L 7 2) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 7 2) (V - 1)
<STEP 49>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 6 1) (V - 1)
Agent performance: 399
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (- 3 2) (L 6 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 6 1) (V - 1)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 5 -) (V - 1)
Agent performance: 404
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (- 3 2) (L 5 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 5 -) (V - 1)
<STEP 51>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 4 -) (V - 1)
Agent performance: 414
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (- 3 2) (L 4 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 4 -) (V - 1)
<STEP 52>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 3 -) (V - 1)
Agent performance: 424
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (- 3 2) (L 3 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 3 -) (V - 1)
<STEP 53>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 2 -) (V - 1)
Agent performance: 434
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (- 3 2) (L 2 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 2 -) (V - 1)
<STEP 54>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 1 -) (V - 1)
Agent performance: 444
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (- 3 2) (L 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V 1 -) (V - 1)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V - -) (V - 1)
Agent performance: 454
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (- 3 2) (L - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (- 3 2) (V - -) (V - 1)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (V 2 1) (V - -) (V - 1)
Agent performance: 458
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (L 2 1) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (V 2 1) (V - -) (V - 1)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (V 1 -) (V - -) (V - 1)
Agent performance: 463
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (L 1 -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (V 1 -) (V - -) (V - 1)
<STEP 58>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (V - -) (V - -) (V - 1)
Agent performance: 473
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- 7 6) (L - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (- 7 6) (V - -) (V - -) (V - 1)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V 6 5) (V - -) (V - -) (V - 1)
Agent performance: 477
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (L 6 5) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V 6 5) (V - -) (V - -) (V - 1)
<STEP 60>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V 5 4) (V - -) (V - -) (V - 1)
Agent performance: 482
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (L 5 4) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V 5 4) (V - -) (V - -) (V - 1)
<STEP 61>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V 4 3) (V - -) (V - -) (V - 1)
Agent performance: 487
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (L 4 3) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V 4 3) (V - -) (V - -) (V - 1)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V 3 2) (V - -) (V - -) (V - 1)
Agent performance: 492
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (L 3 2) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V 3 2) (V - -) (V - -) (V - 1)
<STEP 63>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 1)
Agent performance: 497
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (L 2 1) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V 2 1) (V - -) (V - -) (V - 1)
<STEP 64>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 1)
Agent performance: 502
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (L 1 -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V 1 -) (V - -) (V - -) (V - 1)
<STEP 65>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 512
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (L - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 66>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (U - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 515
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 4 5) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 68>
SELECTED ACTION: Stay
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 520
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 3 4) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 69>
SELECTED ACTION: Stay
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 2 3) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 525
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 2 3) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 2 3) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 70>
SELECTED ACTION: Stay
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 1 2) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 530
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U 1 2) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V 1 2) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 71>
SELECTED ACTION: Stay
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 535
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (U - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 72>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 539
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (U 2 3) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V 2 3) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 73>
SELECTED ACTION: Stay
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 544
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (U 1 2) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V 1 2) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 74>
SELECTED ACTION: Stay
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (U - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 75>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 553
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (U 2 3) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V 2 3) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 76>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 558
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (U 1 2) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V 1 2) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 77>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 563
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (U - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 78>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 555
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (U - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 79>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 80>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 546
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 81>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 545
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (D - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 82>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V 1 3) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (D 1 3) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V 1 3) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 83>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 554
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (D - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 558
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 85>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 563
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (D 3 1) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 86>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 568
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (D 2 -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 87>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 1 -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 578
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (D 1 -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V 1 -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 88>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 588
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (D - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 89>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V 1 1) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 592
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (D 1 1) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V 1 1) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 90>
SELECTED ACTION: Stay
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 597
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (D - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 91>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 596
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (L - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 92>
SELECTED ACTION: Turn
Agent state: (2, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 595
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (U - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (2, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 594
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (R - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 598
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 8 4) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 95>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 603
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 96>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 608
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 6 2) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 97>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 613
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 98>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 618
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 4 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 99>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 628
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 100>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 638
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 101>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 648
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 102>
SELECTED ACTION: Stay
Agent state: (3, 3, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 658
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (R - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 103>
SELECTED ACTION: Turn
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 657
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 104>
SELECTED ACTION: Turn
Agent state: (3, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 656
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (L - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 105>
SELECTED ACTION: Turn
Agent state: (3, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 655
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (- 3 2) (- - -)
3 (- - 3) (- - 1) (- - -) (U - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 106>
SELECTED ACTION: Advance
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (V 2 1) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 659
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (U 2 1) (- - -)
3 (- - 3) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (V 2 1) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 107>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (V 1 -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 664
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (U 1 -) (- - -)
3 (- - 3) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (V 1 -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 108>
SELECTED ACTION: Stay
Agent state: (3, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 674
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- - 1) (- - -) (U - -) (- - -)
3 (- - 3) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V 2 3) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 678
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (U 2 3) (- - 7)
2 (- - 5) (- - 1) (- - -) (- - -) (- - -)
3 (- - 3) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V 2 3) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 110>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V 1 2) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 683
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (U 1 2) (- - 7)
2 (- - 5) (- - 1) (- - -) (- - -) (- - -)
3 (- - 3) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V 1 2) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 111>
SELECTED ACTION: Stay
Agent state: (3, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 688
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- - 2) (U - 1) (- - 7)
2 (- - 5) (- - 1) (- - -) (- - -) (- - -)
3 (- - 3) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (V - 2) (V - 1) (V - 7)
2 (V - 5) (V - 1) (V - -) (V - -) (V - -)
3 (V - 3) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
431
<STARTING>
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (U 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 104
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (R 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 109
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (R 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 114
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (R - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (R 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 133
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (R 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 143
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (R 3 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 153
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (R 2 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 163
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (R 1 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 173
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (R - -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (R 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 182
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (R - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (- 7 5)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 186
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (R 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 6 4)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 13>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 190
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (D 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 5 3)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 14>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 195
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (D 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 4 2)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 15>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 3 1)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (D 3 1)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 3 1)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 16>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 2 -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 205
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (D 2 -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 2 -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 1 -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 215
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (D 1 -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 1 -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 225
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (D - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 19>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 20>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 233
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 238
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 22>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 248
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 257
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 25>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 267
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 26>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 277
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 27>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 28>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 285
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V - 1)
Agent performance: 290
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V - 1)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V - 1)
Agent performance: 294
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V - 1)
<STEP 31>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 6 1) (V - 1)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 6 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 6 1) (V - 1)
<STEP 32>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 5 -) (V - 1)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 5 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 5 -) (V - 1)
<STEP 33>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 4 -) (V - 1)
Agent performance: 314
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 4 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 4 -) (V - 1)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 3 -) (V - 1)
Agent performance: 324
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 3 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 3 -) (V - 1)
<STEP 35>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 2 -) (V - 1)
Agent performance: 334
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 2 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 2 -) (V - 1)
<STEP 36>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 1 -) (V - 1)
Agent performance: 344
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 1 -) (V - 1)
<STEP 37>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V - -) (V - 1)
Agent performance: 354
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V - -) (V - 1)
<STEP 38>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 2 1) (V - -) (V - 1)
Agent performance: 358
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L 2 1) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 2 1) (V - -) (V - 1)
<STEP 39>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 1 -) (V - -) (V - 1)
Agent performance: 363
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L 1 -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 1 -) (V - -) (V - 1)
<STEP 40>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V - -) (V - -) (V - 1)
Agent performance: 373
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V - -) (V - -) (V - 1)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 6 5) (V - -) (V - -) (V - 1)
Agent performance: 377
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 6 5) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 6 5) (V - -) (V - -) (V - 1)
<STEP 42>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 5 4) (V - -) (V - -) (V - 1)
Agent performance: 382
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 5 4) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 5 4) (V - -) (V - -) (V - 1)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 4 3) (V - -) (V - -) (V - 1)
Agent performance: 387
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 4 3) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 4 3) (V - -) (V - -) (V - 1)
<STEP 44>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 3 2) (V - -) (V - -) (V - 1)
Agent performance: 392
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 3 2) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 3 2) (V - -) (V - -) (V - 1)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 2 1) (V - -) (V - -) (V - 1)
Agent performance: 397
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 2 1) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 2 1) (V - -) (V - -) (V - 1)
<STEP 46>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 1 -) (V - -) (V - -) (V - 1)
Agent performance: 402
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 1 -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 1 -) (V - -) (V - -) (V - 1)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 412
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V - -) (V - -) (V - -) (V - 1)
<STEP 48>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 416
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (L 2 -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - 1)
<STEP 49>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 425
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (U 1 -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - 1)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 435
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 439
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 52>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 444
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 53>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 448
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 54>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 453
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 458
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (U - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 462
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (U 3 5) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V 3 5) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 467
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (U 2 4) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V 2 4) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 58>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 472
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (U 1 3) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V 1 3) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 59>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 477
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (U - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 60>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 481
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 61>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 485
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 490
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 3 2) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 63>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 495
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 64>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 500
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 1 -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 65>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 510
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 66>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 502
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 67>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 499
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 68>
SELECTED ACTION: Turn
Agent state: (2, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 498
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (D - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 502
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (D 1 3) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V 1 3) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 70>
SELECTED ACTION: Stay
Agent state: (2, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 507
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (D - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 71>
SELECTED ACTION: Advance
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 511
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D 4 2) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 4 2) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 72>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 516
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D 3 1) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 3 1) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 73>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 521
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D 2 -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 2 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 74>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 1 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 531
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D 1 -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V 1 -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 75>
SELECTED ACTION: Stay
Agent state: (2, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 541
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (D - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 76>
SELECTED ACTION: Advance
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 545
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (D 1 1) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V 1 1) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 77>
SELECTED ACTION: Stay
Agent state: (2, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 550
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (D - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 78>
SELECTED ACTION: Turn
Agent state: (2, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 549
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (L - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 79>
SELECTED ACTION: Advance
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 553
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 4 5) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 4 5) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 80>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 558
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 3 4) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 3 4) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 81>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 2 3) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 563
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 2 3) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 2 3) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 82>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 1 2) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 568
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L 1 2) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V 1 2) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 83>
SELECTED ACTION: Stay
Agent state: (1, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 573
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 3) (L - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 3) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 84>
SELECTED ACTION: Advance
Agent state: (0, 3, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 2) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 565
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (L - 2) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 2) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 85>
SELECTED ACTION: Turn
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 559
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- - -) (- 3 2) (- - -)
3 (U - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 86>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 551
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (U - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 87>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 543
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (- - -) (- - -) (- - -)
1 (U - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 88>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 540
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 89>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 539
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 3) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 90>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 531
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 91>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 528
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (R - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 92>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 525
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (R - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 93>
SELECTED ACTION: Turn
Agent state: (3, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 524
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (D - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- 3 4) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (- 3 4) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 94>
SELECTED ACTION: Advance
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V 2 3) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 528
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (D 2 3) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V 2 3) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 95>
SELECTED ACTION: Stay
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V 1 2) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 533
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (D 1 2) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V 1 2) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 96>
SELECTED ACTION: Stay
Agent state: (3, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 538
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (D - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- 3 2) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (- 3 2) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 97>
SELECTED ACTION: Advance
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V 2 1) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 542
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (D 2 1) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V 2 1) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 98>
SELECTED ACTION: Stay
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V 1 -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 547
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (D 1 -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V 1 -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 99>
SELECTED ACTION: Stay
Agent state: (3, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 557
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (D - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 100>
SELECTED ACTION: Advance
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 561
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 8 4) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 8 4) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 101>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 566
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 7 3) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 7 3) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 102>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 571
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 6 2) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 6 2) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 103>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 576
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 5 1) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 5 1) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 104>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 581
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 4 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 4 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 105>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 591
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 3 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 3 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 106>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 601
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 2 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 2 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 107>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 611
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D 1 -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V 1 -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 108>
SELECTED ACTION: Stay
Agent state: (3, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 621
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (D - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 109>
SELECTED ACTION: Advance
Agent state: (3, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 618
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (D - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 110>
SELECTED ACTION: Turn
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 617
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (L - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 111>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 614
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (L - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 112>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 611
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (L - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 113>
SELECTED ACTION: Turn
Agent state: (1, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 610
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (- - 1) (- - -) (- - -) (- - -)
4 (- - -) (U - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - 1) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 114>
SELECTED ACTION: Advance
Agent state: (1, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 602
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- 3 4) (- - -) (- - -) (- - -)
3 (- - 1) (U - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (- 3 4) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 115>
SELECTED ACTION: Advance
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 606
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (U 2 3) (- - -) (- - -) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V 2 3) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 116>
SELECTED ACTION: Stay
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V 1 2) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 611
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (U 1 2) (- - -) (- - -) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V 1 2) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 117>
SELECTED ACTION: Stay
Agent state: (1, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 616
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (- 3 4) (- - 2) (- - 1) (- - 7)
2 (- - 4) (U - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (- 3 4) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 118>
SELECTED ACTION: Advance
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 620
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (U 2 3) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (V 2 3) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 119>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (V 1 2) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 625
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (U 1 2) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (V 1 2) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 120>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (V - 1) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 630
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 2) (- - -) (- - -) (- - -)
1 (- - 1) (U - 1) (- - 2) (- - 1) (- - 7)
2 (- - 4) (- - 1) (- - -) (- - -) (- - -)
3 (- - 1) (- - -) (- - -) (- - -) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 2) (V - -) (V - -) (V - -)
1 (V - 1) (V - 1) (V - 2) (V - 1) (V - 7)
2 (V - 4) (V - 1) (V - -) (V - -) (V - -)
3 (V - 1) (V - -) (V - -) (V - -) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
990
<STARTING>
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 100
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (U 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 3 4) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 1>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 105
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (U 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 2 3) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 2>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 1 2) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 110
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (U 1 2) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V 1 2) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 3>
SELECTED ACTION: Stay
Agent state: (1, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 115
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (U - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- 3 7) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 4>
SELECTED ACTION: Advance
Agent state: (1, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 119
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (U 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 2 6) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 5>
SELECTED ACTION: Turn
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 123
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (R 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V 1 5) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 6>
SELECTED ACTION: Stay
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 128
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (R - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (- 6 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 7>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 137
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (R 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 5 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 8>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 147
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (R 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 4 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 9>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 157
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (R 3 -) (- 2 2) (- 7 5)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 3 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 10>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 167
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (R 2 -) (- 2 2) (- 7 5)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 2 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 11>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 177
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (R 1 -) (- 2 2) (- 7 5)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V 1 -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 12>
SELECTED ACTION: Stay
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 187
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (R - -) (- 2 2) (- 7 5)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (- 2 2) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 13>
SELECTED ACTION: Advance
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 191
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (R 1 1) (- 7 5)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V 1 1) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 14>
SELECTED ACTION: Stay
Agent state: (3, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 196
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (R - -) (- 7 5)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (- 7 5)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 15>
SELECTED ACTION: Advance
Agent state: (4, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 6 4)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 200
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (R 6 4)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 6 4)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 16>
SELECTED ACTION: Turn
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 5 3)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 204
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (D 5 3)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 5 3)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 17>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 4 2)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 209
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (D 4 2)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 4 2)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 18>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 3 1)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 214
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (D 3 1)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 3 1)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 19>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 2 -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 219
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (D 2 -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 2 -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 20>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 1 -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 229
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (D 1 -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V 1 -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 21>
SELECTED ACTION: Stay
Agent state: (4, 0, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 239
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (D - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (- 1 8)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 22>
SELECTED ACTION: Advance
Agent state: (4, 1, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 243
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (D - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- 3 2)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 23>
SELECTED ACTION: Advance
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 247
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 2 1)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 24>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 252
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V 1 -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 25>
SELECTED ACTION: Stay
Agent state: (4, 2, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 262
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (D - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- 4 2)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 26>
SELECTED ACTION: Advance
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 266
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 3 1)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 27>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 271
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 2 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 28>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 281
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V 1 -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 29>
SELECTED ACTION: Stay
Agent state: (4, 3, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
Agent performance: 291
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (D - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (- 3 4)
<STEP 30>
SELECTED ACTION: Advance
Agent state: (4, 4, Down)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
Agent performance: 295
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (D 2 3)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 2 3)
<STEP 31>
SELECTED ACTION: Turn
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
Agent performance: 299
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L 1 2)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V 1 2)
<STEP 32>
SELECTED ACTION: Stay
Agent state: (4, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V - 1)
Agent performance: 304
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (L - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (- 8 3) (V - 1)
<STEP 33>
SELECTED ACTION: Advance
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V - 1)
Agent performance: 308
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 7 2) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 7 2) (V - 1)
<STEP 34>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 6 1) (V - 1)
Agent performance: 313
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 6 1) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 6 1) (V - 1)
<STEP 35>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 5 -) (V - 1)
Agent performance: 318
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 5 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 5 -) (V - 1)
<STEP 36>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 4 -) (V - 1)
Agent performance: 328
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 4 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 4 -) (V - 1)
<STEP 37>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 3 -) (V - 1)
Agent performance: 338
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 3 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 3 -) (V - 1)
<STEP 38>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 2 -) (V - 1)
Agent performance: 348
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 2 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 2 -) (V - 1)
<STEP 39>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 1 -) (V - 1)
Agent performance: 358
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L 1 -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V 1 -) (V - 1)
<STEP 40>
SELECTED ACTION: Stay
Agent state: (3, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V - -) (V - 1)
Agent performance: 368
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (- 3 2) (L - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (- 3 2) (V - -) (V - 1)
<STEP 41>
SELECTED ACTION: Advance
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 2 1) (V - -) (V - 1)
Agent performance: 372
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L 2 1) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 2 1) (V - -) (V - 1)
<STEP 42>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 1 -) (V - -) (V - 1)
Agent performance: 377
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L 1 -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V 1 -) (V - -) (V - 1)
<STEP 43>
SELECTED ACTION: Stay
Agent state: (2, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V - -) (V - -) (V - 1)
Agent performance: 387
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (- 7 6) (L - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (- 7 6) (V - -) (V - -) (V - 1)
<STEP 44>
SELECTED ACTION: Advance
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 6 5) (V - -) (V - -) (V - 1)
Agent performance: 391
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 6 5) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 6 5) (V - -) (V - -) (V - 1)
<STEP 45>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 5 4) (V - -) (V - -) (V - 1)
Agent performance: 396
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 5 4) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 5 4) (V - -) (V - -) (V - 1)
<STEP 46>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 4 3) (V - -) (V - -) (V - 1)
Agent performance: 401
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 4 3) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 4 3) (V - -) (V - -) (V - 1)
<STEP 47>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 3 2) (V - -) (V - -) (V - 1)
Agent performance: 406
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 3 2) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 3 2) (V - -) (V - -) (V - 1)
<STEP 48>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 2 1) (V - -) (V - -) (V - 1)
Agent performance: 411
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 2 1) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 2 1) (V - -) (V - -) (V - 1)
<STEP 49>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 1 -) (V - -) (V - -) (V - 1)
Agent performance: 416
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L 1 -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V 1 -) (V - -) (V - -) (V - 1)
<STEP 50>
SELECTED ACTION: Stay
Agent state: (1, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 426
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- 3 1) (L - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (- 3 1) (V - -) (V - -) (V - -) (V - 1)
<STEP 51>
SELECTED ACTION: Advance
Agent state: (0, 4, Left)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 430
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (L 2 -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 2 -) (V - -) (V - -) (V - -) (V - 1)
<STEP 52>
SELECTED ACTION: Turn
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 439
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (U 1 -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V 1 -) (V - -) (V - -) (V - -) (V - 1)
<STEP 53>
SELECTED ACTION: Stay
Agent state: (0, 4, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 449
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (U - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (- 2 5) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 54>
SELECTED ACTION: Advance
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 453
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (U 1 4) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V 1 4) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 55>
SELECTED ACTION: Stay
Agent state: (0, 3, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 458
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (U - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (- 3 8) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 56>
SELECTED ACTION: Advance
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 462
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (U 2 7) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V 2 7) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 57>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 467
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (U 1 6) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V 1 6) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 58>
SELECTED ACTION: Stay
Agent state: (0, 2, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 472
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (- 4 6) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (U - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (- 4 6) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 59>
SELECTED ACTION: Advance
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V 3 5) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 476
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (U 3 5) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V 3 5) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 60>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V 2 4) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 481
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (U 2 4) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V 2 4) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 61>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V 1 3) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 486
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (U 1 3) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V 1 3) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 62>
SELECTED ACTION: Stay
Agent state: (0, 1, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 491
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (- - 4) (- - -) (- - -) (- - -)
1 (U - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- 6 5) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 63>
SELECTED ACTION: Advance
Agent state: (0, 0, Up)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 495
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (U 5 4) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 5 4) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 64>
SELECTED ACTION: Turn
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 499
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 4 3) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 4 3) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 65>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 504
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 3 2) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 3 2) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 66>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 509
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 2 1) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 2 1) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 67>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 514
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R 1 -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V 1 -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 68>
SELECTED ACTION: Stay
Agent state: (0, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 524
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (R - -) (- - 4) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 4) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 69>
SELECTED ACTION: Advance
Agent state: (1, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 516
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (R - 3) (- - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'S INTERNAL STATE
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
<STEP 70>
SELECTED ACTION: Advance
Agent state: (2, 0, Right)
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (V - -) (V - 3) (V - -) (V - -) (V - -)
1 (V - 2) (V - 1) (- 2 4) (- 3 4) (V - 7)
2 (V - 5) (- 3 4) (- 5 3) (- 3 2) (V - -)
3 (V - 3) (- 5 6) (- 2 2) (- 9 5) (V - -)
4 (V - -) (V - -) (V - -) (V - -) (V - 1)
Agent performance: 513
PERCEPT
0 1 2 3 4
(A G T) (A G T) (A G T) (A G T) (A G T)
0 (- - -) (- - 3) (R - -) (- - -) (- - -)
1 (- - 2) (- - 1) (- 2 4) (- 3 4) (- - 7)
2 (- - 5) (- 3 4) (- 5 3) (- 3 2) (- - -)
3 (- - 3) (- 5 6) (- 2 2) (- 9 5) (- - -)
4 (- - -) (- - -) (- - -) (- - -) (- - 1)
AGENT'